Правильный способ обработки сильно несбалансированных данных — двоичная классификация

Правильный способ обработки сильно несбалансированных данных — двоичная классификация ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Правильный способ обработки сильно несбалансированных данных — двоичная классификация

Цитата

Сообщение Anonymous » 25 янв 2025, 17:13

У меня действительно большой набор данных с 60 миллионами строк и 11 функций.
Это очень дисбалансированный набор данных, 20: 1 (сигнал: фон).
Как я видел, есть два способа заняться Эта проблема: < /p>
сначала: недостаточная состава /перегрев. > Если я сделаю недостаточную выборку перед разделением тестирования поезда, я теряю много данных.
, но что более важно, если я тренирую модель на сбалансированном наборе данных, я теряю информацию о частоте данных моего сигнала ( Допустим, частота доброкачественной опухоли по сравнению с злокачественными), и поскольку модель обучена и оценена, модель будет работать хорошо. Но если когда -нибудь в будущем я собираюсь попробовать свою модель по новым данным, это будет плохо, потому что реальные данные несбалансированы. в разделе «В разделе« В связи с тем », потому что он будет обучен сбалансированным данным, но подтвержден/протестирован на дисбалансированном. Xbg, случайный лес, логистическая регрессия?
Итак, я ищу объяснение и идею для способа работы над этой проблемой.

Подробнее здесь: https://stackoverflow.com/questions/594 ... sification

1737814414

Anonymous

 У меня действительно большой набор данных с 60 миллионами строк и 11 функций.
Это очень дисбалансированный набор данных, 20: 1 (сигнал: фон).
Как я видел, есть два способа заняться Эта проблема: < /p>
 сначала: недостаточная состава /перегрев. > Если я сделаю недостаточную выборку перед разделением тестирования поезда, я теряю много данных.
, но что более важно, если я тренирую модель на сбалансированном наборе данных, я теряю информацию о частоте данных моего сигнала ( Допустим, частота доброкачественной опухоли по сравнению с злокачественными), и поскольку модель обучена и оценена, модель будет работать хорошо. Но если когда -нибудь в будущем я собираюсь попробовать свою модель по новым данным, это будет плохо, потому что реальные данные несбалансированы. в разделе «В разделе« В связи с тем », потому что он будет обучен сбалансированным данным, но подтвержден/протестирован на дисбалансированном. Xbg, случайный лес, логистическая регрессия? 
Итак, я ищу объяснение и идею для способа работы над этой проблемой. 

Подробнее здесь: [url]https://stackoverflow.com/questions/59409967/proper-way-to-handle-highly-imbalanced-data-binary-classification[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных в Python?

Последнее сообщение Anonymous « 18 окт 2024, 04:19
Добавлено в форуме Python

Anonymous » 18 окт 2024, 04:19 » в форуме Python

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 04:19
Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных?

Последнее сообщение Anonymous « 18 окт 2024, 11:56
Добавлено в форуме Python

Anonymous » 18 окт 2024, 11:56 » в форуме Python

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 11:56
Распараллеливание высокодинамичных и несбалансированных нагрузок

Последнее сообщение Anonymous « 30 дек 2024, 06:50
Добавлено в форуме Python

Anonymous » 30 дек 2024, 06:50 » в форуме Python

У меня есть вычисление следующей структуры (псевдокод):
intermediate_results = []

for source in sources: # (1)
source_data = prepare( load( source ) ) # (2)
for sample in schedule_samples( source_data ): # (3)
sample_data = extract_sample(...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
30 дек 2024, 06:50
Правильный способ обработки наборов данных размером больше памяти в Polars

Последнее сообщение Anonymous « 23 сен 2024, 15:41
Добавлено в форуме Python

Anonymous » 23 сен 2024, 15:41 » в форуме Python

Я начал изучать и внедрять Polars из-за (1) потенциального улучшения скорости и (2) из-за обещания иметь возможность обрабатывать наборы данных, превышающие объем памяти. Однако я изо всех сил пытаюсь понять, как на самом деле выполняется второе...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 15:41
Каков правильный способ обработки конфиденциальных данных через полезную нагрузку?

Последнее сообщение Anonymous « 13 янв 2025, 20:06
Добавлено в форуме Javascript

Anonymous » 13 янв 2025, 20:06 » в форуме Javascript

Например, если бы я отправил запрос на публикацию по маршруту /login, будет ли эта полезная нагрузка уже зашифрована, если URL-адрес API — https? Насколько я знаю, если это https, то полезная нагрузка уже зашифрована.
Другой пример — отправка...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
13 янв 2025, 20:06

Вернуться в «Python»