Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных?

Сообщение Anonymous »

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели улучшилась, но точность и полнота по-прежнему не находятся на том уровне, к которому я стремлюсь.
что я для этого сделал далеко:

[*]Использован SMOTE для избыточной выборки класса меньшинства.
[*]Настроены гиперпараметры, такие как n_estimators, max_length и min_samples_split, с помощью GridSearchCV< /li>
Протестировано с помощью class_weight='balanced'
[*]Оценено с использованием матрицы путаницы, кривой ROC и кривых точного отзыва
< /ul>
В настоящее время модель достигает точности 86 %, но точность и полнота для класса истощения остаются низкими. Я хочу улучшить способность модели правильно прогнозировать случаи выбытия сотрудников, не жертвуя при этом общей производительностью.

Подробнее здесь: https://stackoverflow.com/questions/791 ... d-datasets
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»