Расхождение между AUC ROC OUC ROC и AUC ROC Scikit-Learn для проблемы бинарной классификации

Расхождение между AUC ROC OUC ROC и AUC ROC Scikit-Learn для проблемы бинарной классификации ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Расхождение между AUC ROC OUC ROC и AUC ROC Scikit-Learn для проблемы бинарной классификации

Цитата

Сообщение Anonymous » 23 июл 2025, 22:30

Я работаю над проблемой бинарной классификации, где у меня есть ~ 30 функций ферментных субстратов для прогнозирования EC1 и EC2. Я использую XGBOOST с Optuna для настройки гиперпараметра. Тем не менее, я наблюдаю за несоответствием между значениями AUC ROC, сообщенными Optuna и библиотекой Scikit-Learn.

Вывод Optuna: < /p>
AUC ROC score 1: 0.7109184689577985
AUC ROC score 2: 0.6030927230046949
< /code>
Но оценки AUC ROC с использованием Sklearn для лучших параметров, найденных с использованием Optuna: < /p>
AUC ROC score 1: 0.7065598459411416
AUC ROC score 2: 0.5656470070422535
< /code>
Код для него выглядит так: < /p>
import xgboost as xgb
import optuna
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
import numpy as np

# Setting a fixed random seed for reproducibility
np.random.seed(42)

def train_model(x_train, y_train, x_eval, y_eval):
def objective(trial):
param = {
'objective': 'binary:logistic',
'eval_metric': 'auc',
'n_estimators': trial.suggest_int('n_estimators', 100, 1000),
'max_depth': trial.suggest_int('max_depth', 3, 6),
'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.1, log=True),
'subsample': trial.suggest_float('subsample', 0.5, 1),
'colsample_bytree': trial.suggest_float('colsample_bytree', 0.5, 1),
'reg_alpha': trial.suggest_float('reg_alpha', 0, 10),
'reg_lambda': trial.suggest_float('reg_lambda', 0, 10),
'gamma': trial.suggest_float('gamma', 0.01, 1, log=True),
'random_state': 42,
'early_stopping_rounds': 10
}

model = xgb.XGBClassifier(**param)

model.fit(x_train, y_train, eval_set=[(x_eval, y_eval)], verbose=False)
y_pred = model.predict_proba(x_eval)[:, 1]
auc_roc = roc_auc_score(y_eval, y_pred)

return auc_roc

study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

return study.best_trial.params, study.best_trial.value

# Splitting the data into train and evaluation sets
x_train, x_eval, y_train, y_eval = train_test_split(x_train, y_train, test_size=0.2, random_state=42)

# For EC1
best_params_1, best_auc_1 = train_model(x_train, y_train[:, 0], x_eval, y_eval[:, 0])
classifier_1 = xgb.XGBClassifier(**best_params_1)
classifier_1.fit(x_train, y_train[:, 0])
y_pred_1 = classifier_1.predict_proba(x_eval)[:, 1]

# For EC2
best_params_2, best_auc_2 = train_model(x_train, y_train[:, 1], x_eval, y_eval[:, 1])
classifier_2 = xgb.XGBClassifier(**best_params_2)
classifier_2.fit(x_train, y_train[:, 1])
y_pred_2 = classifier_2.predict_proba(x_eval)[:, 1]

auc_score_1 = roc_auc_score(y_eval[:, 0], y_pred_1)
auc_score_2 = roc_auc_score(y_eval[:, 1], y_pred_2)
< /code>
Я реализовал модель XGBOOST с настройкой гиперпараметров с использованием Optuna. Я ожидал, что значения AUC ROC, полученные из вывода Optuna, будут соответствовать значениям AUC ROC, рассчитанным с использованием функции Scikit-Learn ROC_AUC_SCORE. Однако фактические результаты показывают заметную разницу между этими значениями.

Подробнее здесь: https://stackoverflow.com/questions/766 ... nary-class

1753299054

Anonymous

 Я работаю над проблемой бинарной классификации, где у меня есть ~ 30 функций ферментных субстратов для прогнозирования EC1 и EC2. Я использую XGBOOST с Optuna для настройки гиперпараметра. Тем не менее, я наблюдаю за несоответствием между значениями AUC ROC, сообщенными Optuna и библиотекой Scikit-Learn.

Вывод Optuna: < /p>
AUC ROC score 1: 0.7109184689577985
AUC ROC score 2: 0.6030927230046949
< /code>
Но оценки AUC ROC с использованием Sklearn для лучших параметров, найденных с использованием Optuna: < /p>
AUC ROC score 1: 0.7065598459411416
AUC ROC score 2: 0.5656470070422535
< /code>
Код для него выглядит так: < /p>
import xgboost as xgb
import optuna
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
import numpy as np

# Setting a fixed random seed for reproducibility
np.random.seed(42)

def train_model(x_train, y_train, x_eval, y_eval):
def objective(trial):
param = {
'objective': 'binary:logistic',
'eval_metric': 'auc',
'n_estimators': trial.suggest_int('n_estimators', 100, 1000),
'max_depth': trial.suggest_int('max_depth', 3, 6),
'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.1, log=True),
'subsample': trial.suggest_float('subsample', 0.5, 1),
'colsample_bytree': trial.suggest_float('colsample_bytree', 0.5, 1),
'reg_alpha': trial.suggest_float('reg_alpha', 0, 10),
'reg_lambda': trial.suggest_float('reg_lambda', 0, 10),
'gamma': trial.suggest_float('gamma', 0.01, 1, log=True),
'random_state': 42,
'early_stopping_rounds': 10
}

model = xgb.XGBClassifier(**param)

model.fit(x_train, y_train, eval_set=[(x_eval, y_eval)], verbose=False)
y_pred = model.predict_proba(x_eval)[:, 1]
auc_roc = roc_auc_score(y_eval, y_pred)

return auc_roc

study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

return study.best_trial.params, study.best_trial.value

# Splitting the data into train and evaluation sets
x_train, x_eval, y_train, y_eval = train_test_split(x_train, y_train, test_size=0.2, random_state=42)

# For EC1
best_params_1, best_auc_1 = train_model(x_train, y_train[:, 0], x_eval, y_eval[:, 0])
classifier_1 = xgb.XGBClassifier(**best_params_1)
classifier_1.fit(x_train, y_train[:, 0])
y_pred_1 = classifier_1.predict_proba(x_eval)[:, 1]

# For EC2
best_params_2, best_auc_2 = train_model(x_train, y_train[:, 1], x_eval, y_eval[:, 1])
classifier_2 = xgb.XGBClassifier(**best_params_2)
classifier_2.fit(x_train, y_train[:, 1])
y_pred_2 = classifier_2.predict_proba(x_eval)[:, 1]

auc_score_1 = roc_auc_score(y_eval[:, 0], y_pred_1)
auc_score_2 = roc_auc_score(y_eval[:, 1], y_pred_2)
< /code>
Я реализовал модель XGBOOST с настройкой гиперпараметров с использованием Optuna. Я ожидал, что значения AUC ROC, полученные из вывода Optuna, будут соответствовать значениям AUC ROC, рассчитанным с использованием функции Scikit-Learn ROC_AUC_SCORE. Однако фактические результаты показывают заметную разницу между этими значениями.  

Подробнее здесь: [url]https://stackoverflow.com/questions/76650779/discrepancy-between-optunas-auc-roc-and-scikit-learns-auc-roc-for-binary-class[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Расхождение между AUC ROC OUC ROC и AUC ROC Scikit-Learn для проблемы бинарной классификации

Последнее сообщение Anonymous « 20 июн 2025, 20:55
Добавлено в форуме Python

Anonymous » 20 июн 2025, 20:55 » в форуме Python

Я работаю над проблемой бинарной классификации, где у меня есть ~ 30 функций ферментных субстратов для прогнозирования EC1 и EC2. Я использую XGBOOST с Optuna для настройки гиперпараметра. Тем не менее, я наблюдаю за несоответствием между значениями...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
20 июн 2025, 20:55
Рассчитать кривую ROC, отчет о классификации и матрицу путаницы для задачи классификации по нескольким меткам.

Последнее сообщение Anonymous « 02 дек 2024, 15:40
Добавлено в форуме Python

Anonymous » 02 дек 2024, 15:40 » в форуме Python

Я пытаюсь понять, как создать матрицу путаницы и кривую ROC для моей задачи классификации по нескольким меткам. Я строю нейронную сеть.
Вот мои занятия:
mlb = MultiLabelBinarizer()
ohe = mlb.fit_transform(as_list)
# loop over each of the possible...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 15:40
Используйте scikit-learn для классификации по нескольким категориям

Последнее сообщение Anonymous « 23 сен 2024, 23:37
Добавлено в форуме Python

Anonymous » 23 сен 2024, 23:37 » в форуме Python

Я пытаюсь использовать один из контролируемых методов обучения scikit-learn, чтобы классифицировать фрагменты текста в одну или несколько категорий. Функция прогнозирования всех алгоритмов, которые я пробовал, возвращает только одно совпадение....

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 23:37
Оптимизация гиперпараметров для повышения точности классификации с использованием набора данных NSL-KDD в scikit-learn

Последнее сообщение Anonymous « 30 окт 2024, 23:16
Добавлено в форуме Python

Anonymous » 30 окт 2024, 23:16 » в форуме Python

Я работаю с набором данных NSL-KDD, и моя задача — повысить точность алгоритмов классификации с помощью scikit-learn. В частности, я заинтересован в достижении показателя точности более 80%.
Я реализовал различные алгоритмы классификации из...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
30 окт 2024, 23:16
Я работаю над задачей классификации, используя Scikit-Learn (LogisticRegression ())

Последнее сообщение Anonymous « 15 июн 2025, 02:41
Добавлено в форуме Python

Anonymous » 15 июн 2025, 02:41 » в форуме Python

Я работаю над задачей классификации, используя Scikit-Learn. После фильтрации и масштабирования моего набора данных я пытаюсь обучить модель логистической регрессии и вычислить матрицу путаницы и оценку F1. Вот код, который я использую:
import...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
15 июн 2025, 02:41

Вернуться в «Python»