Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных в Python?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных в Python?

Сообщение Anonymous »

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели улучшилась, но точность и полнота по-прежнему не находятся на том уровне, к которому я стремлюсь.
что я для этого сделал далеко:
  • Использован SMOTE для избыточной выборки класса меньшинства.
  • Настроены гиперпараметры, такие как n_estimators, max_length и min_samples_split, с помощью GridSearchCV< /li>
    Протестировано с помощью class_weight='balanced'
  • Оценено с помощью матрицы путаницы, кривой ROC и кривых точного отзыва.
    В настоящее время модель достигает точность 86%, но точность и полнота для класса истощения остаются низкими. Я хочу улучшить способность модели правильно прогнозировать случаи выбытия без ущерба для общей производительности.


Подробнее здесь: https://stackoverflow.com/questions/791 ... atasets-in
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»