Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных? - Цифровое Кемерово

Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных?

Цитата

Сообщение Anonymous » 18 окт 2024, 11:56

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели улучшилась, но точность и полнота по-прежнему не находятся на том уровне, к которому я стремлюсь.
что я для этого сделал далеко:

[*]Использован SMOTE для избыточной выборки класса меньшинства.
[*]Настроены гиперпараметры, такие как n_estimators, max_length и min_samples_split, с помощью GridSearchCV< /li>
Протестировано с помощью class_weight='balanced'
[*]Оценено с использованием матрицы путаницы, кривой ROC и кривых точного отзыва
< /ul>
В настоящее время модель достигает точности 86 %, но точность и полнота для класса истощения остаются низкими. Я хочу улучшить способность модели правильно прогнозировать случаи выбытия сотрудников, не жертвуя при этом общей производительностью.

Подробнее здесь: https://stackoverflow.com/questions/791 ... d-datasets

Реклама

1729241798

Anonymous

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели улучшилась, но точность и полнота по-прежнему не находятся на том уровне, к которому я стремлюсь.
что я для этого сделал далеко:

[*]Использован SMOTE для избыточной выборки класса меньшинства.
[*]Настроены гиперпараметры, такие как n_estimators, max_length и min_samples_split, с помощью GridSearchCV< /li>
Протестировано с помощью class_weight='balanced'
[*]Оценено с использованием матрицы путаницы, кривой ROC и кривых точного отзыва
< /ul>
В настоящее время модель достигает точности 86 %, но точность и полнота для класса истощения остаются низкими. Я хочу улучшить способность модели правильно прогнозировать случаи выбытия сотрудников, не жертвуя при этом общей производительностью. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79100257/how-to-improve-random-forest-model-performance-for-large-imbalanced-datasets[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных в Python?

Последнее сообщение Anonymous « 18 окт 2024, 04:19
Добавлено в форуме Python

Anonymous » 18 окт 2024, 04:19 » в форуме Python

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 04:19
Как улучшить производительность модели многоклассовой классификации случайного леса?

Последнее сообщение Anonymous « 30 дек 2024, 15:45
Добавлено в форуме Python

Anonymous » 30 дек 2024, 15:45 » в форуме Python

Я работаю над мультиклассовой классификацией, позволяющей разделить клиентов на три разных класса на основе их покупательского поведения и демографических данных. Я не могу раскрыть набор данных полностью, но в целом он содержит около 300 признаков...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
30 дек 2024, 15:45
Как применить CalibratedClassifierCV при внешней проверке модели случайного леса

Последнее сообщение Anonymous « 02 июл 2024, 02:12
Добавлено в форуме Python

Anonymous » 02 июл 2024, 02:12 » в форуме Python

У меня есть модель, обученная на моих данных. Я использовал joblib, чтобы получить модель, и поделился ею с другими командами, чтобы оценить производительность модели на их данных. Один из членов команды вернулся и сказал, что модели не очень хорошо...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 02:12
Как применить CalibratedClassifierCV к внешней проверке модели случайного леса?

Последнее сообщение Anonymous « 02 июл 2024, 04:19
Добавлено в форуме Python

Anonymous » 02 июл 2024, 04:19 » в форуме Python

У меня есть модель, обученная на моих данных. Я использовал JobLib, чтобы получить модель, и поделился ею с другими командами, чтобы оценить эффективность модели на их данных. Один из членов команды вернулся и сказал, что модели не очень хорошо...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 04:19
Как обеспечить 100% точность случайного леса для моей модели обнаружения мошенничества?

Последнее сообщение Anonymous « 30 дек 2024, 15:32
Добавлено в форуме Python

Anonymous » 30 дек 2024, 15:32 » в форуме Python

Этот набор данных был взят из Kaggle, чтобы разработать модель машинного обучения для обнаружения мошенничества для обучения/практики. выполнил очистку данных и объединил несколько наборов данных в файл Final_df. добавил кучу производных функций во...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
30 дек 2024, 15:32

Вернуться в «Python»

Programmiererforum