Код: Выделить всё
0 Male
1 Female
2 NaN
Код: Выделить всё
0 10
1 01
2 00
Код: Выделить всё
# Encoding categorical data
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer([('encoder', OneHotEncoder(handle_unknown='ignore'), [1])],
remainder='passthrough')
obj_df = np.array(ct.fit_transform(obj_df))
print(obj_df)
Поэтому я предполагаю, что мое предыдущее понимание того, как OneHotEncoder обрабатывает пропущенные значения, неверно.
Можно ли мне получить описанную выше функциональность? Я знаю, что вменение пропущенных значений перед кодированием решит эту проблему, но я не хочу этого делать, поскольку имею дело с медицинскими данными и опасаюсь, что вменение может снизить точность прогнозирования моей модели.
Я нашел похожий вопрос, но ответ не предлагает достаточно подробного решения о том, как обращаться со значениями NaN.
Дайте мне знать, что вы думаете, спасибо.>
Подробнее здесь: https://stackoverflow.com/questions/624 ... it-learn-o
Мобильная версия