Регрессия LightGBM для цели с преобразованием ранга: «Нет дальнейших разделений с положительным выигрышем» и почти посто

Регрессия LightGBM для цели с преобразованием ранга: «Нет дальнейших разделений с положительным выигрышем» и почти посто ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Регрессия LightGBM для цели с преобразованием ранга: «Нет дальнейших разделений с положительным выигрышем» и почти посто

Цитата

Сообщение Anonymous » 26 янв 2026, 15:29

Я тренирую модель LightGBM, где метрикой оценки является корреляция Спирмена (на основе ранга). Чтобы лучше согласовать обучение с метрикой, я преобразую непрерывную цель y в ранги, масштабированные до [0,1]:

Код: Выделить всё

y_rank = pd.Series(y).rank(method="average")

y_rank = (y_rank - 1) / (len(y_rank) - 1)

Затем я обучаю LGBMRegressor по y_rank (все функции являются числовыми, а не категориальными). Набор данных состоит из ~7500 строк и ~18 числовых функций.
Однако во время обучения я часто вижу:

Код: Выделить всё

\[LightGBM\] \[Warning\] No further splits with positive gain, best gain: -inf

и в конечном итоге модель дает почти постоянные прогнозы (почти без дисперсии), что делает оценку Спирмена плохой.
Вопросы:

Каковы наиболее распространенные причины наилучшего выигрыша: -inf / «нет положительного выигрыша» в этой настройке (целевой рейтинг в [0,1])?
Какие параметры мне следует настроить аккуратно, чтобы дерево можно было разделить без необходимости сильного переобучения?
Есть ли рекомендуемая цель/подход в LightGBM, когда окончательным показателем является Спирмен (например, регрессия по рангам по сравнению с целями ранжирования)?

Минимальный код модели:

Код: Выделить всё

from lightgbm import LGBMRegressor
import lightgbm as lgb

model = LGBMRegressor(
objective="regression",
n_estimators=4000,
learning_rate=0.03,
num_leaves=127,
min_child_samples=20,
min_split_gain=0.0,
subsample=0.9,
subsample_freq=1,
colsample_bytree=0.9,
reg_alpha=0.0,
reg_lambda=1.0,
random_state=42,
n_jobs=-1,
force_col_wise=True,
)

model.fit(
X_tr, y_tr,
eval_set=[(X_va, y_va)],
eval_metric="rmse",
callbacks=[lgb.early_stopping(stopping_rounds=300, verbose=False)]
)

Я проверил:

Код: Выделить всё
```
X_tr
```
— это float32/
Код: Выделить всё
```
float64Только 
```
(без меток времени и объектов)
Отсутствующие значения вычисляются по медиане
Код: Выделить всё
```
y_rank.std()
```
не равно нулю в целом и для каждого сгиба.

Тем не менее, иногда я получаю постоянные модели + предупреждение выше. Будем признательны за любые рекомендации по диагностике и принципиальному решению проблемы.
Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/798 ... h-positive

1769430590

Anonymous

Я тренирую модель LightGBM, где метрикой оценки является [b]корреляция Спирмена[/b] (на основе ранга). Чтобы лучше согласовать обучение с метрикой, я преобразую непрерывную цель y в [b]ранги, масштабированные до [0,1][/b]:
[code]
y_rank = pd.Series(y).rank(method="average")

y_rank = (y_rank - 1) / (len(y_rank) - 1)

[/code]
Затем я обучаю LGBMRegressor по y_rank (все функции являются числовыми, а не категориальными). Набор данных состоит из ~7500 строк и ~18 числовых функций.
Однако во время обучения я часто вижу:
[code]
\[LightGBM\] \[Warning\] No further splits with positive gain, best gain: -inf

[/code]
и в конечном итоге модель дает [b]почти постоянные прогнозы[/b] (почти без дисперсии), что делает оценку Спирмена плохой.
[b]Вопросы:[/b]
[list]
[*]Каковы наиболее распространенные причины наилучшего выигрыша: -inf / «нет положительного выигрыша» в этой настройке (целевой рейтинг в [0,1])?

[*]Какие параметры мне следует настроить аккуратно, чтобы дерево можно было разделить без необходимости сильного переобучения?

[*]Есть ли рекомендуемая цель/подход в LightGBM, когда окончательным показателем является Спирмен (например, регрессия по рангам по сравнению с целями ранжирования)?

[/list]
[b]Минимальный код модели:[/b]
[code]from lightgbm import LGBMRegressor
import lightgbm as lgb

model = LGBMRegressor(
objective="regression",
n_estimators=4000,
learning_rate=0.03,
num_leaves=127,
min_child_samples=20,
min_split_gain=0.0,
subsample=0.9,
subsample_freq=1,
colsample_bytree=0.9,
reg_alpha=0.0,
reg_lambda=1.0,
random_state=42,
n_jobs=-1,
force_col_wise=True,
)

model.fit(
X_tr, y_tr,
eval_set=[(X_va, y_va)],
eval_metric="rmse",
callbacks=[lgb.early_stopping(stopping_rounds=300, verbose=False)]
)
[/code]
Я проверил:
[list]
[*][code]X_tr[/code] — это float32/[code]float64Только [/code] (без меток времени и объектов)

[*]Отсутствующие значения вычисляются по медиане

[*][code]y_rank.std()[/code] не равно нулю в целом и для каждого сгиба.

[/list]
Тем не менее, иногда я получаю постоянные модели + предупреждение выше. Будем признательны за любые рекомендации по диагностике и принципиальному решению проблемы.
Спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79876321/lightgbm-regression-on-rank-transformed-target-no-further-splits-with-positive[/url]