Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели улучшилась, но точность и полнота по-прежнему не находятся на том уровне, к которому я стремлюсь.
что я для этого сделал далеко:
Использован SMOTE для избыточной выборки класса меньшинства.
Настроены гиперпараметры, такие как n_estimators, max_length и min_samples_split, с помощью GridSearchCV< /li>
Протестировано с помощью class_weight='balanced'
Оценено с помощью матрицы путаницы, кривой ROC и кривых точного отзыва.
В настоящее время модель достигает точность 86%, но точность и полнота для класса истощения остаются низкими. Я хочу улучшить способность модели правильно прогнозировать случаи выбытия без ущерба для общей производительности.
Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели улучшилась, но точность и полнота по-прежнему не находятся на том уровне, к которому я стремлюсь. что я для этого сделал далеко: [list] [*]Использован SMOTE для избыточной выборки класса меньшинства. [*]Настроены гиперпараметры, такие как n_estimators, max_length и min_samples_split, с помощью GridSearchCV< /li> Протестировано с помощью class_weight='balanced' [*]Оценено с помощью матрицы путаницы, кривой ROC и кривых точного отзыва. В настоящее время модель достигает точность 86%, но точность и полнота для класса истощения остаются низкими. Я хочу улучшить способность модели правильно прогнозировать случаи выбытия без ущерба для общей производительности. [/list]
Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...
Я работаю над мультиклассовой классификацией, позволяющей разделить клиентов на три разных класса на основе их покупательского поведения и демографических данных. Я не могу раскрыть набор данных полностью, но в целом он содержит около 300 признаков...
У меня есть модель, обученная на моих данных. Я использовал joblib, чтобы получить модель, и поделился ею с другими командами, чтобы оценить производительность модели на их данных. Один из членов команды вернулся и сказал, что модели не очень хорошо...
У меня есть модель, обученная на моих данных. Я использовал JobLib, чтобы получить модель, и поделился ею с другими командами, чтобы оценить эффективность модели на их данных. Один из членов команды вернулся и сказал, что модели не очень хорошо...
Этот набор данных был взят из Kaggle, чтобы разработать модель машинного обучения для обнаружения мошенничества для обучения/практики. выполнил очистку данных и объединил несколько наборов данных в файл Final_df. добавил кучу производных функций во...