Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных в Python? - Цифровое Кемерово

Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных в Python? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных в Python?

Цитата

Сообщение Anonymous » 18 окт 2024, 04:19

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели улучшилась, но точность и полнота по-прежнему не находятся на том уровне, к которому я стремлюсь.
что я для этого сделал далеко:

Использован SMOTE для избыточной выборки класса меньшинства.
Настроены гиперпараметры, такие как n_estimators, max_length и min_samples_split, с помощью GridSearchCV< /li>
Протестировано с помощью class_weight='balanced'
Оценено с помощью матрицы путаницы, кривой ROC и кривых точного отзыва.
В настоящее время модель достигает точность 86%, но точность и полнота для класса истощения остаются низкими. Я хочу улучшить способность модели правильно прогнозировать случаи выбытия без ущерба для общей производительности.

Подробнее здесь: https://stackoverflow.com/questions/791 ... atasets-in

Реклама

1729214372

Anonymous

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели улучшилась, но точность и полнота по-прежнему не находятся на том уровне, к которому я стремлюсь.
что я для этого сделал далеко:
[list]
[*]Использован SMOTE для избыточной выборки класса меньшинства.
[*]Настроены гиперпараметры, такие как n_estimators, max_length и min_samples_split, с помощью GridSearchCV< /li>
Протестировано с помощью class_weight='balanced'
[*]Оценено с помощью матрицы путаницы, кривой ROC и кривых точного отзыва.
В настоящее время модель достигает точность 86%, но точность и полнота для класса истощения остаются низкими. Я хочу улучшить способность модели правильно прогнозировать случаи выбытия без ущерба для общей производительности.
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79100257/how-to-improve-random-forest-model-performance-for-large-imbalanced-datasets-in[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных?

Последнее сообщение Anonymous « 18 окт 2024, 11:56
Добавлено в форуме Python

Anonymous » 18 окт 2024, 11:56 » в форуме Python

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 11:56
Как улучшить производительность модели многоклассовой классификации случайного леса?

Последнее сообщение Anonymous « 30 дек 2024, 15:45
Добавлено в форуме Python

Anonymous » 30 дек 2024, 15:45 » в форуме Python

Я работаю над мультиклассовой классификацией, позволяющей разделить клиентов на три разных класса на основе их покупательского поведения и демографических данных. Я не могу раскрыть набор данных полностью, но в целом он содержит около 300 признаков...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
30 дек 2024, 15:45
Как применить CalibratedClassifierCV при внешней проверке модели случайного леса

Последнее сообщение Anonymous « 02 июл 2024, 02:12
Добавлено в форуме Python

Anonymous » 02 июл 2024, 02:12 » в форуме Python

У меня есть модель, обученная на моих данных. Я использовал joblib, чтобы получить модель, и поделился ею с другими командами, чтобы оценить производительность модели на их данных. Один из членов команды вернулся и сказал, что модели не очень хорошо...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 02:12
Как применить CalibratedClassifierCV к внешней проверке модели случайного леса?

Последнее сообщение Anonymous « 02 июл 2024, 04:19
Добавлено в форуме Python

Anonymous » 02 июл 2024, 04:19 » в форуме Python

У меня есть модель, обученная на моих данных. Я использовал JobLib, чтобы получить модель, и поделился ею с другими командами, чтобы оценить эффективность модели на их данных. Один из членов команды вернулся и сказал, что модели не очень хорошо...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 04:19
Как обеспечить 100% точность случайного леса для моей модели обнаружения мошенничества?

Последнее сообщение Anonymous « 30 дек 2024, 15:32
Добавлено в форуме Python

Anonymous » 30 дек 2024, 15:32 » в форуме Python

Этот набор данных был взят из Kaggle, чтобы разработать модель машинного обучения для обнаружения мошенничества для обучения/практики. выполнил очистку данных и объединил несколько наборов данных в файл Final_df. добавил кучу производных функций во...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
30 дек 2024, 15:32

Вернуться в «Python»

Programmiererforum