Как лучше всего использовать селектор функций sklearn при поиске по сетке, чтобы оценить полезность всех функций? - Цифровое Кемерово

Как лучше всего использовать селектор функций sklearn при поиске по сетке, чтобы оценить полезность всех функций? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как лучше всего использовать селектор функций sklearn при поиске по сетке, чтобы оценить полезность всех функций?

Цитата

Сообщение Anonymous » 08 янв 2025, 00:56

Я обучаю классификатор sklearn и вставляю в конвейер этап выбора признаков. С помощью поиска по сетке я хотел бы определить, какое количество функций позволяет мне максимизировать производительность. Тем не менее, я хотел бы изучить с помощью поиска по сетке возможность того, что отсутствие выбора функций, а только «сквозной» шаг является оптимальным выбором для максимизации производительности.
Вот воспроизводимый пример:

Код: Выделить всё

import seaborn as sns
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer

# Load the Titanic dataset
titanic = sns.load_dataset('titanic')

# Select features and target
features = ['age', 'fare', 'sex']
X = titanic[features]
y = titanic['survived']

# Preprocessing pipelines for numeric and categorical features
numeric_features = ['age', 'fare']
numeric_transformer = Pipeline(steps=[
('imputer', SimpleImputer(strategy='constant')),
('scaler', StandardScaler())
])

categorical_features = ['sex']
categorical_transformer = Pipeline(steps=[
('imputer', SimpleImputer(strategy='constant')),
('onehot', OneHotEncoder(drop='first'))
])

# Combine preprocessing steps
preprocessor = ColumnTransformer(transformers=[
('num', numeric_transformer, numeric_features),
('cat', categorical_transformer, categorical_features)
])

# Initialize classifier and feature selector
clf = LogisticRegression(max_iter=1000, solver='liblinear')
sfs = SequentialFeatureSelector(clf, direction='forward')

# Create a pipeline that includes preprocessing, feature selection, and classification
pipeline = Pipeline(steps=[
('preprocessor', preprocessor),
('feature_selection', sfs),
('classifier', clf)
])

# Define the parameter grid to search over
param_grid = {
'feature_selection__n_features_to_select': [2],
'classifier__C': [0.1, 1.0, 10.0],  # Regularization strength
}

# Create and run the grid search
grid_search = GridSearchCV(pipeline, param_grid, cv=5)
grid_search.fit(X, y)

# Output the best parameters and score
print("Best parameters found:", grid_search.best_params_)
print("Best cross-validation score:", grid_search.best_score_)

Код: Выделить всё

здесь есть три функции (даже после этапа препроцессора), но приведенный выше код поиска по сетке не позволяет исследовать модели, в которых используются все 3 функции, как установлено

Код: Выделить всё

 feature_selection__n_features_to_select: [2,3]

выдаст ValueError: n_features_to_select должно быть < n_features.
Проблема здесь в том, что SequentialFeatureSelector этого не делает. рассматривать выбор всех функций (так называемый сквозной селектор) как допустимый выбор функций.
Я хотел бы запустить поиск по сетке, учитывающий настройку

Код: Выделить всё

('feature_selection', 'passthrough')

в разработке среди исследованных моделей. Есть ли идиоматический/хороший способ сделать это?

Подробнее здесь: https://stackoverflow.com/questions/793 ... to-evaluat

Реклама

1736287019

Anonymous

Я обучаю классификатор sklearn и вставляю в конвейер этап выбора признаков. С помощью поиска по сетке я хотел бы определить, какое количество функций позволяет мне максимизировать производительность. Тем не менее, я хотел бы изучить с помощью поиска по сетке возможность того, что отсутствие выбора функций, а только «сквозной» шаг является оптимальным выбором для максимизации производительности.
Вот воспроизводимый пример:
[code]import seaborn as sns
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer

# Load the Titanic dataset
titanic = sns.load_dataset('titanic')

# Select features and target
features = ['age', 'fare', 'sex']
X = titanic[features]
y = titanic['survived']

# Preprocessing pipelines for numeric and categorical features
numeric_features = ['age', 'fare']
numeric_transformer = Pipeline(steps=[
('imputer', SimpleImputer(strategy='constant')),
('scaler', StandardScaler())
])

categorical_features = ['sex']
categorical_transformer = Pipeline(steps=[
('imputer', SimpleImputer(strategy='constant')),
('onehot', OneHotEncoder(drop='first'))
])

# Combine preprocessing steps
preprocessor = ColumnTransformer(transformers=[
('num', numeric_transformer, numeric_features),
('cat', categorical_transformer, categorical_features)
])

# Initialize classifier and feature selector
clf = LogisticRegression(max_iter=1000, solver='liblinear')
sfs = SequentialFeatureSelector(clf, direction='forward')

# Create a pipeline that includes preprocessing, feature selection, and classification
pipeline = Pipeline(steps=[
('preprocessor', preprocessor),
('feature_selection', sfs),
('classifier', clf)
])

# Define the parameter grid to search over
param_grid = {
'feature_selection__n_features_to_select': [2],
'classifier__C': [0.1, 1.0, 10.0],  # Regularization strength
}

# Create and run the grid search
grid_search = GridSearchCV(pipeline, param_grid, cv=5)
grid_search.fit(X, y)

# Output the best parameters and score
print("Best parameters found:", grid_search.best_params_)
print("Best cross-validation score:", grid_search.best_score_)
[/code]
[code]X[/code] здесь есть три функции (даже после этапа препроцессора), но приведенный выше код поиска по сетке не позволяет исследовать модели, в которых используются все 3 функции, как установлено
[code] feature_selection__n_features_to_select: [2,3]
[/code]
выдаст ValueError: n_features_to_select должно быть < n_features.
Проблема здесь в том, что SequentialFeatureSelector этого не делает. рассматривать выбор всех функций (так называемый сквозной селектор) как допустимый выбор функций.
Я хотел бы запустить поиск по сетке, учитывающий настройку
[code]('feature_selection', 'passthrough')
[/code]
в разработке среди исследованных моделей. Есть ли идиоматический/хороший способ сделать это? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79337434/what-the-best-way-to-use-a-sklearn-feature-selector-in-a-grid-search-to-evaluat[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как лучше всего использовать селектор функций sklearn при поиске по сетке, чтобы оценить полезность всех функций?

Последнее сообщение Anonymous « 08 янв 2025, 02:01
Добавлено в форуме Python

Anonymous » 08 янв 2025, 02:01 » в форуме Python

Я обучаю классификатор sklearn и вставляю в конвейер этап выбора признаков. С помощью поиска по сетке я хотел бы определить, какое количество функций позволяет мне максимизировать производительность. Тем не менее, я хотел бы изучить с помощью поиска...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 02:01
Как лучше всего использовать селектор функций sklearn в поиске по сетке, чтобы оценить полезность всех функций?

Последнее сообщение Anonymous « 08 янв 2025, 11:42
Добавлено в форуме Python

Anonymous » 08 янв 2025, 11:42 » в форуме Python

Я обучаю классификатор sklearn и вставляю в конвейер этап выбора признаков. С помощью поиска по сетке я хотел бы определить, какое количество функций позволяет мне максимизировать производительность. Тем не менее, я хотел бы изучить с помощью поиска...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 11:42
Реализация sklearn.ensemble.GradientBoostingRegressor с помощью sklearn.multioutput.MultiOutputRegressor и sklearn.model

Последнее сообщение Anonymous « 02 дек 2024, 01:49
Добавлено в форуме Python

Anonymous » 02 дек 2024, 01:49 » в форуме Python

Я пытаюсь создать модели, поддерживающие многомерный вывод. Одна из моделей, которые я пытаюсь использовать, — это GradientBoostingRegressor, которая изначально не поддерживает многомерный вывод. Существует обходной путь с помощью...

0 Ответы

55 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 01:49
Реализация sklearn.ensemble.GradientBoostingRegressor с помощью sklearn.multioutput.MultiOutputRegressor и sklearn.model

Последнее сообщение Anonymous « 02 дек 2024, 13:06
Добавлено в форуме Python

Anonymous » 02 дек 2024, 13:06 » в форуме Python

Я пытаюсь создать модели, поддерживающие многомерный вывод. Одна из моделей, которые я пытаюсь использовать, — это GradientBoostingRegressor, которая изначально не поддерживает многомерный вывод. Существует обходной путь с помощью...

0 Ответы

56 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 13:06
Реализация sklearn.ensemble.GradientBoostingRegressor с помощью sklearn.multioutput.MultiOutputRegressor и sklearn.model

Последнее сообщение Anonymous « 07 дек 2024, 02:51
Добавлено в форуме Python

Anonymous » 07 дек 2024, 02:51 » в форуме Python

Я пытаюсь создать модели, поддерживающие многомерный вывод. Одна из моделей, которые я пытаюсь использовать, — это GradientBoostingRegressor, которая изначально не поддерживает многомерный вывод. Существует обходной путь с помощью...

0 Ответы

45 Просмотры

Последнее сообщение Anonymous
07 дек 2024, 02:51

Вернуться в «Python»

Programmiererforum