Заранее спасибо за любую помощь, которую вы можете оказать. У меня есть набор данных, содержащий некоторые данные о здравоохранении, и я пробую свои силы в использовании Python для моделирования EDA/регрессии в наборе. У меня есть один столбец даты [date_of_incident] с большим количеством отсутствующих данных или неверно. У меня также есть столбец [teater_date], который имеет точную информацию. Я преобразовал оба столбца в DateTime и создал новый столбец: [dt_diff] = [teeal_date]-[date_of_incident], чтобы выяснить, сколько дней между двумя столбцами. < /P>
Я хочу использовать среднее значение [dt_diff], чтобы вставлять новые даты в колонке [date_ifid]. В основном [new_date_of_incident] = [tearer_date]-[dt_diff] .mean (), но я не хочу заменять все даты в столбце. Просто пропавшие или неправильные. Дело A [date_of_incident] является NAN и имеет [Teater_date] 17.07.2025, случай B [date_of_incident] составляет 30.06.1965 и имеет [Teatury_Date] 5/20/2025. Как лучше всего изменить дело A [date_of_incident] на 5/10/2025 и дело B [date_of_incident] на 13.05.2025, но для более чем 1000 строк? Набор данных не достаточно большой для меня, чтобы отбросить эти строки, и этот столбец важен для цели анализа. Я супер нуб для кодирования Python.
Подробнее здесь: https://stackoverflow.com/questions/796 ... etween-two
Как я могу вменять пропущенные значения даты, используя среднюю разницу между двумя столбцами даты? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение