У меня возникла проблема с одной горячей кодировкой категориальных переменных в Pycaret. Проблема в том, что даже при установке моих категориальных переменных конвейер применяет нормализацию к категориальным переменным, и я понятия не имею, что я делаю неправильно.
Поначалу, используя приведенный ниже код, все работает. нормально:
from pycaret.classification import *
from pycaret.datasets import get_data
import pandas as pd
import numpy as np
import seaborn as sns
dataset = get_data('income')
dataset.dtypes
После попытки просмотра заголовка фрейма данных он применяет только одно горячее кодирование к гонке столбцов и нормализует остальные категориальные входные данные, и я не могу понять, почему.< /p>
возраст
рабочий класс
образование
номер образования
семейное положение
род занятий
другие столбцы
У меня возникла проблема с одной горячей кодировкой категориальных переменных в Pycaret. Проблема в том, что даже при установке моих категориальных переменных конвейер применяет нормализацию к категориальным переменным, и я понятия не имею, что я делаю неправильно. Поначалу, используя приведенный ниже код, все работает. нормально: [code]from pycaret.classification import * from pycaret.datasets import get_data import pandas as pd import numpy as np import seaborn as sns dataset = get_data('income') dataset.dtypes [/code] Пока я не начну установку и [code]exp_clf01 = setup( data = dataset , target = 'income >50K' , session_id = 123 , numeric_features = ['age','education-num','capital-gain','capital-loss','hours-per-week'] , categorical_features = ['workclass','education','marital-status','occupation','relationship','race','sex','native-country'] ) df_transformed = get_config("X_train") df_transformed.head() [/code] После попытки просмотра заголовка фрейма данных он применяет только одно горячее кодирование к гонке столбцов и нормализует остальные категориальные входные данные, и я не могу понять, почему.< /p>
возраст рабочий класс образование номер образования семейное положение род занятий другие столбцы
Я работаю над набором данных грибовидных функций, почти все из которых я закодировал с помощью pandas в двоичный формат, но некоторые закодированы номинально. Мне интересно, могу ли я использовать исходные столбцы в качестве второго индекса, чтобы...
Я провожу Kaggle Challenge, который требует от нас предсказать 12 идентификаторов продуктов, которые клиенты с наибольшей вероятностью купят, исходя из их прошлой истории. Просмотр всех деталей кода занял бы слишком много времени. Я столкнулся со...
Я провожу Kaggle Challenge, который требует от нас предсказать 12 идентификаторов продуктов, которые клиенты с наибольшей вероятностью купят, исходя из их прошлой истории. Просмотр всех деталей кода занял бы слишком много времени. Я столкнулся со...