Я смотрел на следующую ветку:
Правильный способ обработки очень дисбалансированных данных - двоичная классификация < /p>
Плака Общепринято при работе с медицинскими наборами данных и другими типами обнаружения неисправностей, когда один из классов (плохо-эффект) всегда недостаточно представлен. применить перекрестную проверку. Складки должны генерироваться таким образом, чтобы сбалансировать классы в каждом складе. В вашем случае это создает 20 раз, каждый из них имеет одинаковый недопредставленный класс и другую часть перепропленного класса. P> Создание сбалансированных складок и использование перекрестной проверки также приводят к лучшей обобщенной и надежной модели. В вашем случае могут показаться суровыми, поэтому вы можете создать 10 раз в каждую с соотношением класса 2: 1. P> Это не имеет смысла для меня. большинство класс. ОК. Что мне теперь делать? Если я забегаю модель в традиционном пути CV (используйте все остальные складки для тренировок, набрать на один сгиб), мы получаем безумную утечку цели, так как модель буквально видит те же наблюдения, которые она была обучена. < /P>
Чего мне здесь не хватает? Рекомендуется ли он обучить 20 слабых классификаторов на этих разрывах 1: 1, а затем оценивать набор тестирования с использованием оценки ансамбля? Я не имел успеха с какими -либо встроенными методами борьбы с дисбалансом (весом). Метрики, которые я использую для оценки: Remeply, коэффициент корреляции Мэтью и средний показатель точности.
Подробнее здесь: https://stackoverflow.com/questions/793 ... s-solution
Несбалансированная бинарная классификация - исправьте мою реализацию этого решения ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение