Как я могу очистить столбец года с беспорядочными значениями?Python

Программы на Python
Ответить
Anonymous
 Как я могу очистить столбец года с беспорядочными значениями?

Сообщение Anonymous »

У меня есть проект курса по анализу данных, над которым я работаю, где мы выбираем набор данных и проходим этапы очистки и изучения данных, имея в виду вопрос, на который нужно ответить.
Я хочу видеть, сколько экземпляров данных встречается в разные годы, но сейчас в столбце Год в наборе данных установлен объект типа данных со значениями, охватывающими целые годы, например 1998 год, только последние 2 цифры типа 87, диапазоны предполагаемых лет («начало 1990-х», «89 или 90», «2011–2012», «приблизительно 2001»).
Я пытаюсь определить лучший способ преобразовать все эти различные экземпляры в правильный формат или было бы лучше отказаться от значений, которые не являются окончательными? Я беспокоюсь, что это приведет к слишком большой потере данных, поскольку набор данных уже довольно мал (всего около 5000 строк).
Я изучил регулярное выражение, и кажется, что это именно тот путь, по которому я должен спуститься вниз, чтобы сохранить и изменить значения, но я до сих пор не очень хорошо понимаю это концептуально и беспокоюсь об эффективности фильтрации такого большого количества различных вариантов значений.
Я' Я все еще очень новичок в Python и панды.

Подробнее здесь: https://stackoverflow.com/questions/792 ... ssy-values
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»