Я создаю модель бинарной классификации, чтобы прогнозировать отток клиентов. В настоящее время я использую модель логистической регрессии в scikit-learn, и мне удалось достичь показателя ROC-AUC 0,91 на моем тестовом наборе, но я ищу стратегии для дальнейшего ее улучшения.
Вот что в настоящее время включает в себя мой конвейер:
*Предварительная обработка: мгновенное кодирование для категориальных переменных (таких как тип контракта и метод оплаты) и масштабирование числовых функций (например, срок службы и ежемесячный платеж). Расходы).
*Дисбаланс классов: применен class_weight='balanced' для обработки класса оттока меньшинства.
*Настройка гиперпараметров: использован GridSearchCV (5-кратное CV) для настройки параметра регуляризации C и проверены штрафы l1 и l2 с использованием liblinear решателя.
Поскольку логистическая регрессия опирается на линейные отношения, какие конкретные функции разрабатываются рекомендуются методы (например, термины взаимодействия, объединение непрерывных переменных) или преобразования данных, чтобы выявить нелинейные закономерности в наборе данных об оттоке и увеличить AUC выше 0,91?
Есть ли определенные закономерности в ложноположительных/отрицательных результатах, которые мне следует анализировать, чтобы направлять создание функций?
Подробнее здесь: https://stackoverflow.com/questions/799 ... ediction-m
Как повысить AUC логистической регрессии выше 0,91 для модели прогнозирования оттока клиентов? ⇐ Python
Программы на Python
1773087191
Anonymous
Я создаю модель бинарной классификации, чтобы прогнозировать отток клиентов. В настоящее время я использую модель логистической регрессии в scikit-learn, и мне удалось достичь показателя ROC-AUC 0,91 на моем тестовом наборе, но я ищу стратегии для дальнейшего ее улучшения.
Вот что в настоящее время включает в себя мой конвейер:
*Предварительная обработка: мгновенное кодирование для категориальных переменных (таких как тип контракта и метод оплаты) и масштабирование числовых функций (например, срок службы и ежемесячный платеж). Расходы).
*Дисбаланс классов: применен class_weight='balanced' для обработки класса оттока меньшинства.
*Настройка гиперпараметров: использован GridSearchCV (5-кратное CV) для настройки параметра регуляризации C и проверены штрафы l1 и l2 с использованием liblinear решателя.
Поскольку логистическая регрессия опирается на линейные отношения, какие конкретные функции разрабатываются рекомендуются методы (например, термины взаимодействия, объединение непрерывных переменных) или преобразования данных, чтобы выявить нелинейные закономерности в наборе данных об оттоке и увеличить AUC выше 0,91?
Есть ли определенные закономерности в ложноположительных/отрицательных результатах, которые мне следует анализировать, чтобы направлять создание функций?
Подробнее здесь: [url]https://stackoverflow.com/questions/79904109/how-to-push-logistic-regression-auc-above-0-91-for-a-customer-churn-prediction-m[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия