Как правильно разделить несбалансированный набор данных для обучения и тестирования?Python

Программы на Python
Ответить
Anonymous
 Как правильно разделить несбалансированный набор данных для обучения и тестирования?

Сообщение Anonymous »

У меня есть набор данных о задержках рейсов, и я пытаюсь разделить его для обучения и тестирования перед выборкой. Случаи, сделанные вовремя, составляют около 80% от общего объема данных, а случаи с задержкой – около 20%.

Обычно в машинном обучении соотношение размера обучающего и тестового наборов составляет 8:2. Но данные слишком несбалансированы. Таким образом, в крайнем случае, большая часть данных о поездах относится к своевременным, а большая часть тестовых данных - к случаям задержки, и точность будет низкой.

Итак, мой вопрос: как правильно разделить несбалансированный набор данных на набор для обучения и тестирования??

Подробнее здесь: https://stackoverflow.com/questions/572 ... d-test-set
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»