Какие части несбалансированного конвейера обучения применяются к набору тестов? - Цифровое Кемерово

Какие части несбалансированного конвейера обучения применяются к набору тестов? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Какие части несбалансированного конвейера обучения применяются к набору тестов?

Цитата

Сообщение Anonymous » 13 май 2024, 10:48

Я создал конвейер несбалансированного обучения, состоящий из RobustScaler, SMOTE-NC, RandomUndersampling и классификатора случайного леса.
RandomSearchCV используется для выбора лучших гиперпараметров.
Я хотел бы проверить лучший оценщик на своем тестовом наборе.

Код: Выделить всё

cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=10, random_state=42)

scaler = RobustScaler(quantile_range=(25.0, 75.0))
smote = SMOTENC(categorical_features=categorical_features, sampling_strategy=0.35, random_state=42)
rus = RandomUnderSampler(sampling_strategy=0.35, random_state=42)
classifier = RandomForestClassifier(random_state=42)

pipeline = imbalanced_make_pipeline(scaler, smote, rus, classifier)

random_search = RandomizedSearchCV(pipeline, param_distributions=param, scoring=scoring_metric, cv=cv, n_iter=10, random_state=42, n_jobs=-1)

best_model = random_search.fit(X_train, y_train).best_estimator_

y_pred = best_model.predict(X_test)

Насколько я понимаю, к тестовому набору должно применяться только масштабирование (с настройками, полученными X_train) и классификатор. SMOTE и RandomUndersampling не следует применять к X_test.
Гарантируется ли это конвейером несбалансированного обучения или мне нужно учитывать что-то еще?

Подробнее здесь: https://stackoverflow.com/questions/784 ... e-test-set

Реклама

1715586493

Anonymous

Я создал конвейер несбалансированного обучения, состоящий из RobustScaler, SMOTE-NC, RandomUndersampling и классификатора случайного леса.
RandomSearchCV используется для выбора лучших гиперпараметров.
Я хотел бы проверить лучший оценщик на своем тестовом наборе.
[code]cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=10, random_state=42)

scaler = RobustScaler(quantile_range=(25.0, 75.0))
smote = SMOTENC(categorical_features=categorical_features, sampling_strategy=0.35, random_state=42)
rus = RandomUnderSampler(sampling_strategy=0.35, random_state=42)
classifier = RandomForestClassifier(random_state=42)

pipeline = imbalanced_make_pipeline(scaler, smote, rus, classifier)

random_search = RandomizedSearchCV(pipeline, param_distributions=param, scoring=scoring_metric, cv=cv, n_iter=10, random_state=42, n_jobs=-1)

best_model = random_search.fit(X_train, y_train).best_estimator_

y_pred = best_model.predict(X_test)
[/code]
Насколько я понимаю, к тестовому набору должно применяться только масштабирование (с настройками, полученными X_train) и классификатор. SMOTE и RandomUndersampling не следует применять к X_test.
Гарантируется ли это конвейером несбалансированного обучения или мне нужно учитывать что-то еще? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78462616/which-parts-of-the-imbalanced-learn-pipeline-are-applied-to-the-test-set[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Невозможно получить файл model.py после обучения моей модели lstm набору данных sst2 без состязательного обучения.

Последнее сообщение Anonymous « 29 ноя 2024, 11:51
Добавлено в форуме Python

Anonymous » 29 ноя 2024, 11:51 » в форуме Python

Опишите ошибку
Четкое и краткое описание ошибки.
Чтобы воспроизвести
Шаги по воспроизведению поведения:
Выполнить следующую команду textattack...
Выполнить следующий код...
Смотреть ошибку
Ожидаемое поведение
После обучения lstm должен быть...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
29 ноя 2024, 11:51
Невозможно получить файл model.py после обучения моей модели lstm набору данных sst2 без состязательного обучения.

Последнее сообщение Anonymous « 29 ноя 2024, 12:27
Добавлено в форуме Python

Anonymous » 29 ноя 2024, 12:27 » в форуме Python

Опишите ошибку
Четкое и краткое описание ошибки.
Чтобы воспроизвести
Шаги по воспроизведению поведения:
Выполнить следующую команду textattack...
Выполнить следующий код...
Смотреть ошибку
Ожидаемое поведение
После обучения lstm должен быть...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
29 ноя 2024, 12:27
Как использовать веса классов с фокусной потерей в PyTorch для несбалансированного набора данных для многоклассовой клас

Последнее сообщение Anonymous « 23 июл 2024, 06:58
Добавлено в форуме Python

Anonymous » 23 июл 2024, 06:58 » в форуме Python

Я работаю над мультиклассовой классификацией (4 класса) для языковой задачи и использую модель BERT для задачи классификации. Я слежу за этим сообщением в блоге «Передача обучения для НЛП: точная настройка BERT для классификации текста». Моя модель...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
23 июл 2024, 06:58
Как сократить разрыв между результатами обучения и тестов для разных моделей машинного обучения?

Последнее сообщение Anonymous « 29 июн 2024, 20:20
Добавлено в форуме Python

Anonymous » 29 июн 2024, 20:20 » в форуме Python

Я использую несколько моделей машинного обучения для прогнозирования AQI. Данные представлены в ежедневном формате и содержат 1850 записей. Я получаю оценку R2 в поезде около 99 и оценку за тест около 91. Нормален ли этот разрыв? Если нет, как я...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 20:20
Как сократить разрыв между результатами обучения и тестов для разных моделей машинного обучения?

Последнее сообщение Anonymous « 29 июн 2024, 21:13
Добавлено в форуме Python

Anonymous » 29 июн 2024, 21:13 » в форуме Python

Я использую несколько моделей машинного обучения для прогнозирования AQI. Данные представлены в ежедневном формате и содержат 1850 записей. Я получаю оценку R2 в поезде около 99 и оценку за тест около 91. Нормален ли этот разрыв? Если нет, как я...

0 Ответы

40 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 21:13

Вернуться в «Python»

Programmiererforum