Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели улучшилась, но точность и полнота по-прежнему не находятся на том уровне, к которому я стремлюсь.
что я для этого сделал далеко:
[*]Использован SMOTE для избыточной выборки класса меньшинства.
[*]Настроены гиперпараметры, такие как n_estimators, max_length и min_samples_split, с помощью GridSearchCV< /li>
Протестировано с помощью class_weight='balanced'
[*]Оценено с использованием матрицы путаницы, кривой ROC и кривых точного отзыва
< /ul>
В настоящее время модель достигает точности 86 %, но точность и полнота для класса истощения остаются низкими. Я хочу улучшить способность модели правильно прогнозировать случаи выбытия сотрудников, не жертвуя при этом общей производительностью.
Подробнее здесь: https://stackoverflow.com/questions/791 ... d-datasets
Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как улучшить производительность модели многоклассовой классификации случайного леса?
Anonymous » » в форуме Python - 0 Ответы
- 18 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как применить CalibratedClassifierCV при внешней проверке модели случайного леса
Anonymous » » в форуме Python - 0 Ответы
- 32 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как применить CalibratedClassifierCV к внешней проверке модели случайного леса?
Anonymous » » в форуме Python - 0 Ответы
- 29 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как обеспечить 100% точность случайного леса для моей модели обнаружения мошенничества?
Anonymous » » в форуме Python - 0 Ответы
- 17 Просмотры
-
Последнее сообщение Anonymous
-