Как тренировать XGBOOST на большом наборе данных и улучшить обнаружение мошенничества? - Цифровое Кемерово

Как тренировать XGBOOST на большом наборе данных и улучшить обнаружение мошенничества? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как тренировать XGBOOST на большом наборе данных и улучшить обнаружение мошенничества?

Цитата

Сообщение Anonymous » 10 фев 2025, 14:56

Я только начинаю с ML, поэтому я буду признателен за любым советом. Данные сильно несбалансированы (~ 96% нормального и ~ 4% мошенничества).
Первая проблема - потребление памяти
файл обучения составляет 32 ГБ, но даже при чтении всего 1 миллиона строк я получаю Ошибка распределения памяти: < /p>
xgboost.core.XGBoostError: bad_malloc: Failed to allocate 25547999900 bytes.
< /code>
Вторая проблема - плохое качество прогнозирования
Я тренируюсь на строках 100 тыс., Но независимо от того, как я настраиваю XGBOOST, модель едва обнаруживает случаи мошенничества. < /p>
Каковы лучшие методы балансировки класса для XGBOOST в таком сценарии? Как мне справиться с набором данных таким большим? Что бы вы порекомендовали изменить?
Введите описание изображения здесь < /p>
df = pd.read_csv('train.csv', nrows=100000)

df.drop(['transaction_id', 'card_holder_first_name', 'card_holder_last_name', 'is_verified', 'browser', 'browser_version',
'operating_system', 'operating_system_version', 'card_id', 'ip_address', 'merchant_customer_id', 'merchant_id', 'user_agent',
'merchant_customer_last_name', 'merchant_customer_first_name', 'merchant_customer_phone', 'merchant_customer_email', 'bin','device',
'traffic_source', 'transaction_source', 'merchant_city', 'merchant_shop_id', 'merchant_shop_name', 'order_number'],
axis=1, inplace=True)

df['bank'].replace(' ', '_', regex=True, inplace=True)

df['created_at'] = pd.to_datetime(df['created_at'])
df['seconds_since_midnight'] = df['created_at'].dt.hour * 3600 + df['created_at'].dt.minute * 60 + df['created_at'].dt.second
df['day_of_week'] = df['created_at'].dt.weekday

df.drop('created_at', axis=1, inplace=True)

df.loc[pd.isna(df['merchant_language']), 'merchant_language'] = 'unknown'

df.loc[pd.isna(df['payment_type']), 'payment_type'] = 0

X = df.drop('is_fraud', axis=1).copy()

y = df['is_fraud'].copy()

X_encoded = pd.get_dummies(X, columns=['merchant_country',
'transaction_type',
'merchant_language',
'platform',
'ip_country',
'bank',
'cardbrand',
'cardcountry',
'cardtype',
'payment_type'])

X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, random_state=42, stratify=y)

clf_xgb = xgb.XGBClassifier(
objective="binary:logistic",
seed=42,
eval_metric="aucpr",
early_stopping_rounds=10,
max_depth=6,
subsample=0.8,
colsample_bytree=0.8
)

clf_xgb.fit(
X_train,
y_train,
eval_set=[(X_test, y_test)],
verbose=True
)

disp = ConfusionMatrixDisplay.from_estimator(
clf_xgb,
X_test,
y_test,
display_labels=["Not fraudsters", "Fraud"],
cmap="Blues"
)
disp.plot(values_format='d')

plt.show()
< /code>
Я новичок в ML, поэтому я еще не пробовал много методов. Я экспериментировал с различными параметрами XGBOOST и уменьшил размер набора данных, чтобы соответствовать памяти, но модель все еще изо всех сил пытается обнаружить случаи мошенничества. Я не уверен, что лучше всего подходит для обработки такого большого и несбалансированного набора данных, поэтому я бы признателен за любые советы.

Подробнее здесь: https://stackoverflow.com/questions/794 ... -detection

Реклама

1739188608

Anonymous

 Я только начинаю с ML, поэтому я буду признателен за любым советом. Данные сильно несбалансированы (~ 96% нормального и ~ 4% мошенничества).
Первая проблема - потребление памяти
файл обучения составляет 32 ГБ, но даже при чтении всего 1 миллиона строк я получаю Ошибка распределения памяти: < /p>
xgboost.core.XGBoostError: bad_malloc: Failed to allocate 25547999900 bytes.
< /code>
Вторая проблема - плохое качество прогнозирования
Я тренируюсь на строках 100 тыс., Но независимо от того, как я настраиваю XGBOOST, модель едва обнаруживает случаи мошенничества. < /p>
Каковы лучшие методы балансировки класса для XGBOOST в таком сценарии? Как мне справиться с набором данных таким большим? Что бы вы порекомендовали изменить?
Введите описание изображения здесь < /p>
df = pd.read_csv('train.csv', nrows=100000)

df.drop(['transaction_id', 'card_holder_first_name', 'card_holder_last_name', 'is_verified', 'browser', 'browser_version',
'operating_system', 'operating_system_version', 'card_id', 'ip_address', 'merchant_customer_id', 'merchant_id', 'user_agent',
'merchant_customer_last_name', 'merchant_customer_first_name', 'merchant_customer_phone', 'merchant_customer_email', 'bin','device',
'traffic_source', 'transaction_source', 'merchant_city', 'merchant_shop_id', 'merchant_shop_name', 'order_number'],
axis=1, inplace=True)

df['bank'].replace(' ', '_', regex=True, inplace=True)

df['created_at'] = pd.to_datetime(df['created_at'])
df['seconds_since_midnight'] = df['created_at'].dt.hour * 3600 + df['created_at'].dt.minute * 60 + df['created_at'].dt.second
df['day_of_week'] = df['created_at'].dt.weekday

df.drop('created_at', axis=1, inplace=True)

df.loc[pd.isna(df['merchant_language']), 'merchant_language'] = 'unknown'

df.loc[pd.isna(df['payment_type']), 'payment_type'] = 0

X = df.drop('is_fraud', axis=1).copy()

y = df['is_fraud'].copy()

X_encoded = pd.get_dummies(X, columns=['merchant_country',
'transaction_type',
'merchant_language',
'platform',
'ip_country',
'bank',
'cardbrand',
'cardcountry',
'cardtype',
'payment_type'])

X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, random_state=42, stratify=y)

clf_xgb = xgb.XGBClassifier(
objective="binary:logistic",
seed=42,
eval_metric="aucpr",
early_stopping_rounds=10,
max_depth=6,
subsample=0.8,
colsample_bytree=0.8
)

clf_xgb.fit(
X_train,
y_train,
eval_set=[(X_test, y_test)],
verbose=True
)

disp = ConfusionMatrixDisplay.from_estimator(
clf_xgb,
X_test,
y_test,
display_labels=["Not fraudsters", "Fraud"],
cmap="Blues"
)
disp.plot(values_format='d')

plt.show()
< /code>
Я новичок в ML, поэтому я еще не пробовал много методов. Я экспериментировал с различными параметрами XGBOOST и уменьшил размер набора данных, чтобы соответствовать памяти, но модель все еще изо всех сил пытается обнаружить случаи мошенничества. Я не уверен, что лучше всего подходит для обработки такого большого и несбалансированного набора данных, поэтому я бы признателен за любые советы.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79426998/how-to-train-xgboost-on-a-large-dataset-and-improve-fraud-detection[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

XGBOOST GPU Версия не превосходит процессор в небольшом наборе данных, несмотря на настройку параметров - необходимы пре

Последнее сообщение Anonymous « 02 май 2025, 19:17
Добавлено в форуме Python

Anonymous » 02 май 2025, 19:17 » в форуме Python

В настоящее время я работаю над параллельным и распределенным вычислительным проектом, где я сравниваю производительность XGBOOST, работающего на процессоре против графического процессора. Цель состоит в том, чтобы продемонстрировать, как ускорение...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
02 май 2025, 19:17
XGBOOST GPU Версия не превосходит процессор в небольшом наборе данных, несмотря на настройку параметров - необходимы пре

Последнее сообщение Anonymous « 02 май 2025, 22:19
Добавлено в форуме Python

Anonymous » 02 май 2025, 22:19 » в форуме Python

В настоящее время я работаю над параллельным и распределенным вычислительным проектом, где я сравниваю производительность XGBOOST, работающего на процессоре против графического процессора. Цель состоит в том, чтобы продемонстрировать, как ускорение...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
02 май 2025, 22:19
Как обеспечить 100% точность случайного леса для моей модели обнаружения мошенничества?

Последнее сообщение Anonymous « 30 дек 2024, 15:32
Добавлено в форуме Python

Anonymous » 30 дек 2024, 15:32 » в форуме Python

Этот набор данных был взят из Kaggle, чтобы разработать модель машинного обучения для обнаружения мошенничества для обучения/практики. выполнил очистку данных и объединил несколько наборов данных в файл Final_df. добавил кучу производных функций во...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
30 дек 2024, 15:32
Предотвращение реферальных мошенничества

Последнее сообщение Anonymous « 10 сен 2025, 05:17
Добавлено в форуме Php

Anonymous » 10 сен 2025, 05:17 » в форуме Php

Как вы можете предотвратить «реферальные мошенничества»? Когда я следил за ссылкой, явно не была ссылка на мой сайт. Сайт продавал продукты, в данном случае книги. Все комментарии следовали аналогичной речевой шаблоне, и URL -адрес веб -сайта для...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
10 сен 2025, 05:17
Polars вызывает сбой ядра Python при большом наборе данных

Последнее сообщение Anonymous « 11 окт 2024, 11:18
Добавлено в форуме Python

Anonymous » 11 окт 2024, 11:18 » в форуме Python

У меня есть большой полярный фрейм данных, который представляет собой перекрестное произведение двух фреймов данных. Я пытаюсь использовать библиотеку медуз, чтобы получить оценку сходства по двум столбцам, например:
vec_jw_similarity =...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 11:18

Вернуться в «Python»

Programmiererforum