Оценка в GridSearchCV для XGBoost - Цифровое Кемерово

Оценка в GridSearchCV для XGBoost ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 25 июл 2024, 13:06

Сейчас я впервые пытаюсь проанализировать данные с помощью XGBoost. Я хочу найти лучшие параметры с помощью GridsearchCV. Я хочу минимизировать среднеквадратическую ошибку, и для этого я использовал «rmse» в качестве eval_metric. Однако при подсчете очков при поиске по сетке такой метрики нет. На этом сайте я обнаружил, что «neg_mean_squared_error» делает то же самое, но обнаружил, что это дает мне другие результаты, чем RMSE. Когда я вычисляю корень абсолютного значения «neg_mean_squared_error», я получаю значение около 8,9, в то время как другая функция дает мне RMSE около 4,4.
Я не знаю, что пошло не так или как мне заставить эти две функции согласовывать/давать одинаковые значения?

Из-за этой проблемы я ошибаюсь значения как «best_params_», которые дают мне более высокое RMSE, чем некоторые значения, с которых я изначально начал настройку.

Кто-нибудь может объяснить мне, как получить оценку по RMSE в поиск по сетке или почему мой код дает разные значения?

Заранее спасибо.

def modelfit(alg, trainx, trainy, useTrainCV=True, cv_folds=10, early_stopping_rounds=50):
if useTrainCV:
xgb_param = alg.get_xgb_params()
xgtrain = xgb.DMatrix(trainx, label=trainy)
cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
metrics='rmse', early_stopping_rounds=early_stopping_rounds)
alg.set_params(n_estimators=cvresult.shape[0])

# Fit the algorithm on the data
alg.fit(trainx, trainy, eval_metric='rmse')

# Predict training set:
dtrain_predictions = alg.predict(trainx)
# dtrain_predprob = alg.predict_proba(trainy)[:, 1]
print(dtrain_predictions)
print(np.sqrt(mean_squared_error(trainy, dtrain_predictions)))

# Print model report:
print("\nModel Report")
print("RMSE : %.4g" % np.sqrt(metrics.mean_squared_error(trainy, dtrain_predictions)))

param_test2 = {
'max_depth':[6,7,8],
'min_child_weight':[2,3,4]
}

grid2 = GridSearchCV(estimator = xgb.XGBRegressor( learning_rate =0.1, n_estimators=2000, max_depth=5,
min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
objective= 'reg:linear', nthread=4, scale_pos_weight=1, random_state=4),
param_grid = param_test2, scoring='neg_mean_squared_error', n_jobs=4,iid=False, cv=10, verbose=20)
grid2.fit(X_train,y_train)
# Mean cross-validated score of the best_estimator
print(grid2.best_params_, np.sqrt(np.abs(grid2.best_score_))), print(np.sqrt(np.abs(grid2.score(X_train, y_train))))
modelfit(grid2.best_estimator_, X_train, y_train)
print(np.sqrt(np.abs(grid2.score(X_train, y_train))))

Подробнее здесь: https://stackoverflow.com/questions/502 ... or-xgboost

1721902000

Anonymous

Сейчас я впервые пытаюсь проанализировать данные с помощью XGBoost. Я хочу найти лучшие параметры с помощью GridsearchCV. Я хочу минимизировать среднеквадратическую ошибку, и для этого я использовал «rmse» в качестве eval_metric. Однако при подсчете очков при поиске по сетке такой метрики нет. На этом сайте я обнаружил, что «neg_mean_squared_error» делает то же самое, но обнаружил, что это дает мне другие результаты, чем RMSE. Когда я вычисляю корень абсолютного значения «neg_mean_squared_error», я получаю значение около 8,9, в то время как другая функция дает мне RMSE около 4,4.
Я не знаю, что пошло не так или как мне заставить эти две функции согласовывать/давать одинаковые значения?

Из-за этой проблемы я ошибаюсь значения как «best_params_», которые дают мне более высокое RMSE, чем некоторые значения, с которых я изначально начал настройку.

Кто-нибудь может объяснить мне, как получить оценку по RMSE в поиск по сетке или почему мой код дает разные значения? 

Заранее спасибо.

def modelfit(alg, trainx, trainy, useTrainCV=True, cv_folds=10, early_stopping_rounds=50):
if useTrainCV:
xgb_param = alg.get_xgb_params()
xgtrain = xgb.DMatrix(trainx, label=trainy)
cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
metrics='rmse', early_stopping_rounds=early_stopping_rounds)
alg.set_params(n_estimators=cvresult.shape[0])

# Fit the algorithm on the data
alg.fit(trainx, trainy, eval_metric='rmse')

# Predict training set:
dtrain_predictions = alg.predict(trainx)
# dtrain_predprob = alg.predict_proba(trainy)[:, 1]
print(dtrain_predictions)
print(np.sqrt(mean_squared_error(trainy, dtrain_predictions)))

# Print model report:
print("\nModel Report")
print("RMSE : %.4g" % np.sqrt(metrics.mean_squared_error(trainy, dtrain_predictions)))

param_test2 = {
'max_depth':[6,7,8],
'min_child_weight':[2,3,4]
}

grid2 = GridSearchCV(estimator = xgb.XGBRegressor( learning_rate =0.1, n_estimators=2000, max_depth=5,
min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
objective= 'reg:linear', nthread=4, scale_pos_weight=1, random_state=4),
param_grid = param_test2, scoring='neg_mean_squared_error', n_jobs=4,iid=False, cv=10, verbose=20)
grid2.fit(X_train,y_train)
# Mean cross-validated score of the best_estimator
print(grid2.best_params_, np.sqrt(np.abs(grid2.best_score_))), print(np.sqrt(np.abs(grid2.score(X_train, y_train))))
modelfit(grid2.best_estimator_, X_train, y_train)
print(np.sqrt(np.abs(grid2.score(X_train, y_train))))
 

Подробнее здесь: [url]https://stackoverflow.com/questions/50296817/scoring-in-gridsearchcv-for-xgboost[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оценка в GridSearchCV для XGBoost

Последнее сообщение Anonymous « 24 ноя 2024, 23:00
Добавлено в форуме Python

Anonymous » 24 ноя 2024, 23:00 » в форуме Python

Сейчас я впервые пытаюсь проанализировать данные с помощью XGBoost. Я хочу найти лучшие параметры с помощью GridsearchCV. Я хочу минимизировать среднеквадратическую ошибку, и для этого я использовал «rmse» в качестве eval_metric. Однако при подсчете...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
24 ноя 2024, 23:00
Sklearn Pipelines + GridsearchCV + XGBoost + Кривая обучения

Последнее сообщение Anonymous « 29 июл 2024, 16:42
Добавлено в форуме Python

Anonymous » 29 июл 2024, 16:42 » в форуме Python

Я новичок в sklearn и XGBoost.
Я хотел бы использовать GridSearchCV для настройки классификатора XGBoost. Одна из проверок, которую я хотел бы провести, — это графический анализ потерь при обучении и тестировании. На данный момент я создал следующий...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
29 июл 2024, 16:42
Оценка в Gruseearchcv для xgboost

Последнее сообщение Anonymous « 25 апр 2025, 07:08
Добавлено в форуме Python

Anonymous » 25 апр 2025, 07:08 » в форуме Python

Я впервые пытаюсь проанализировать данные, используя Xgboost. Я хочу найти лучшие параметры с использованием Gridsearchcv. Я хочу минимизировать квадратную ошибку в квадрате корня, и для этого я использовал «RMSE» как eval_metric. Однако оценка в...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
25 апр 2025, 07:08
Проблема, возникшая при использовании GridsearchCV в randomForestClassifier

Последнее сообщение Anonymous « 06 мар 2024, 11:13
Добавлено в форуме Python

Anonymous » 06 мар 2024, 11:13 » в форуме Python

I am a beginner and I am working on a classification problem related to heart disease using RandomForestClassifier. While performing hyperparameter tuning on RandomForestClassifier, I am facing the following issue. I am using sklearn Pipeline and...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
06 мар 2024, 11:13
Sklearn GridSearchCV дает сомнительные результаты

Последнее сообщение Anonymous « 22 май 2024, 03:11
Добавлено в форуме Python

Anonymous » 22 май 2024, 03:11 » в форуме Python

У меня есть входные данные X_train размером (477 x 200) и y_train длиной 477.
Я хочу использовать машинный регрессор опорных векторов и выполняю поиск по сетке.
param_grid = {'kernel': , 'degree': , 'C': }
grid = GridSearchCV(estimator=regressor_2,...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
22 май 2024, 03:11

Вернуться в «Python»