У меня есть набор данных о нарушениях, в которых только нарушения с истекшим сроком действия и сверхурочными связаны с именами счетчиков (как и должно быть). Для других типов нарушений столбец «Имя счетчика» имеет значение NaN. Вот пример:
Код: Выделить всё
Violation Type Meter Name
Expired Meter_001
Overtime Meter_002
No Parking NaN
Double Parking NaN
Следует ли мне назначить значение-заполнитель (например, «Нет счетчика») для этих строк NaN или есть лучший подход для решения этой ситуации, сохраняя при этом целостность данных? Каковы наилучшие методы обработки таких контекстно-отсутствующих данных?
Что я пробовал:
Заменил NaN на «Нет счетчика» для строк без применимого счетчика. имена.
Что я ожидал:
Последовательный набор данных без значений NaN и четкая дифференциация для неотслеживаемых нарушений. Не уверен, что это лучший подход.
Подробнее здесь:
https://stackoverflow.com/questions/793 ... -a-dataset