Набор оценочных/тестовых данных CatBoost с весами для наблюдений

Набор оценочных/тестовых данных CatBoost с весами для наблюдений ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Набор оценочных/тестовых данных CatBoost с весами для наблюдений

Цитата

Сообщение Anonymous » 21 янв 2026, 06:18

Я работаю над набором данных, содержащим список людей (индексированных по их финансовому коду). Целевая переменная является двоичной (1: купить книгу, 0: в противном случае).
Все предикторы являются категориальными (например: национальность, город, дорога, корзина дохода и т. д.).
Фискальный код может повторяться дважды, и каждый экземпляр/наблюдение имеет вес (1, если не повторяется, значение от 0 до 1, если повторяется).
Например, набор данных выглядит так:

фискальный_код
вес
цель
категориальная информация

AAAAA1
0.98
0
...

AAAAA1
0.02
1
...

У меня есть два набора данных:

train:
Код: Выделить всё
```
X_train
```
: матрица категориальных переменных
Код: Выделить всё
```
y_train
```
: целевая переменная
Код: Выделить всё
```
train_weight
```
: вес для каждого наблюдения в наборе данных поезда.

[*]test: переменные X_test, y_test и test_weight, которые соответствуют переменным в наборе данных поезда.

Я попробовал модель CatBoost CatBoostClassifier:

Код: Выделить всё

# Inizialize booster and hyperparameters
categorical_features_indices = np.where(X.dtypes == np.category)[0]

model = CatBoostClassifier(iterations=5000, learning_rate=0.1, depth=7, loss_function='Logloss',eval_metric='AUC')

# Fit model
model.fit(X_train,
y_train,
eval_set=(X_test,y_test),
cat_features=categorical_features_indices,
use_best_model=True,
verbose=True,
sample_weight=train_weight)

Как учесть, что наблюдения в тестовом наборе данных тоже имеют веса (например, test_weight)?
Я прочитал документацию CatBoost, но не нашел ничего полезного, вместо документации Lightgbm (если рассматривать другую модель буста).

Подробнее здесь: https://stackoverflow.com/questions/541 ... servations

1768965527

Anonymous

Я работаю над набором данных, содержащим список людей (индексированных по их финансовому коду). Целевая переменная является двоичной (1: купить книгу, 0: в противном случае).
Все предикторы являются категориальными (например: национальность, город, дорога, корзина дохода и т. д.).
Фискальный код может повторяться дважды, и каждый экземпляр/наблюдение имеет вес (1, если не повторяется, значение от 0 до 1, если повторяется).
Например, набор данных выглядит так:



фискальный_код
вес
цель
категориальная информация




AAAAA1
0.98
0
...


AAAAA1
0.02
1
...



У меня есть два набора данных:
[list]
[*][b]train[/b]:

[code]X_train[/code]: матрица категориальных переменных
[*][code]y_train[/code]: целевая переменная
[*][code]train_weight[/code]: вес для каждого наблюдения в наборе данных поезда.
[/list]

[*][b]test[/b]: переменные X_test, y_test и test_weight, которые соответствуют переменным в наборе данных поезда.

Я попробовал модель CatBoost CatBoostClassifier:
[code]# Inizialize booster and hyperparameters
categorical_features_indices = np.where(X.dtypes == np.category)[0]

model = CatBoostClassifier(iterations=5000, learning_rate=0.1, depth=7, loss_function='Logloss',eval_metric='AUC')

# Fit model
model.fit(X_train,
y_train,
eval_set=(X_test,y_test),
cat_features=categorical_features_indices,
use_best_model=True,
verbose=True,
sample_weight=train_weight)
[/code]
Как учесть, что наблюдения в тестовом наборе данных тоже имеют веса (например, test_weight)?
Я прочитал документацию CatBoost, но не нашел ничего полезного, вместо документации Lightgbm (если рассматривать другую модель буста). 

Подробнее здесь: [url]https://stackoverflow.com/questions/54118318/catboost-evaluation-test-dataset-with-weights-for-observations[/url]