- представляет день недели (семь категорий, сопоставленных целым числам: 1, 2, ..., 7).
Код: Выделить всё
dow - представляет четыре типа наблюдения (четыре категории, сопоставленные с целыми числами: 1, 2, 3, 4).
Код: Выделить всё
type
Я знаю, как их кодировать с помощью OneHotEncoder. Однако я не уверен, как реализовать процесс разработки функций, чтобы учесть все 28 комбинаций (7 x 4 возможных случая), особенно потому, что OneHotEncoder возвращает разреженные векторы.
Для целей этого вопроса предположим, что мой фрейм данных pyspark df выглядит следующим образом:
dow
тип
цель
1
1
200
1
2
222
1
7
229
Где dow может принимать семь различных значений, а тип может принимать на четверых. Существует ли встроенный способ создания взаимодействия между этими двумя столбцами, чтобы учесть все возможные комбинации?
Подробнее здесь: https://stackoverflow.com/questions/769 ... in-pyspark
Мобильная версия