Балансировать образцы на проблеме бинарной классификации с разреженными положительными метками [закрыто]Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Балансировать образцы на проблеме бинарной классификации с разреженными положительными метками [закрыто]

Сообщение Anonymous »

Я работаю над проблемой бинарной классификации, которая включает в себя образцы, которые являются последовательностями времени. Моя модель должна дать прогноз, либо 0 или 1 , для каждого временного шага каждого образца. Не уверен, если уместно, но я использую LSTMS и плотную функцию активации с сигмоидом. Я не получаю результаты, которые я ожидаю, и я подозреваю о своем методе отбора проб.

Код: Выделить всё

y = [0,0,0,0,0,0,0,0,...,0,0,0,1,1,1,0,0,0,0,0,0] # usually it possesses around 4000 timesteps
Я рассматриваю, что положительная выборка является той, которая содержит хотя бы один временный меток, метка которой 1 . Логически, отрицательная выборка - это та, которая не содержит никаких 1 , только 0 значения в своем векторе метки. Имея это в виду, у меня есть 1300 положительных образцов и 6200 отрицательных образцов. Таким образом, только около 20% из моих образцов имеют по крайней мере метку, которую я хочу классифицировать как 1 , в то время как остальные полностью полны значений 0 . Затем я распространил свои образцы по обучению, проверке и тестовым наборам, как это обычно делается - своего рода 0,80 - 0,10 - 0,10 - обеспечивая, чтобы между ними они сохраняют одинаковый % положительных и отрицательных образцов. пик из ниоткуда. Несомненно, может произойти некоторое улучшение на фазе настройки/оптимизации, но я подозреваю, что самая большая проблема может быть здесь не, а в отборе проб. Модель по -прежнему способна чему -то научиться во время обучения, но я бы ожидал, что это далеко не достичь значений метрических значений. Таким образом, это факт, что событие, связанное с меткой 1 , очень редко по отношению к его отсутствию ... даже если мои образцы отражают разреженность, которая характеризует возникновение этикетки 1 - может быть много «образцов/временные рамки» в реальной жизни без абсолютно нет 1 , я все еще не нахожусь в соответствии с ними, и не наказывают, что не наказывают, и не наказывают, что не наказывается, и не наказывают. Чрезмерное количество отрицательных образцов у меня есть? Так, например, учитывая мои положительные 1300 образцов и только около 1300 отрицательных образцов? Если нормальная длина составляет 4000 времени, некоторые мои образцы фактически включают в себя только около 5-20 времени. Плохо ли для того, чтобы такие образцы были поданы на модель? Я обеспокоен тем, что они не приносят никакого дополнительного обучения и фактически предубеляют процесс обучения, «загромождая» партии образцов, которые используются для обновления параметров - не уверены, имеет ли это смысл или это не имеет значения. Если это имеет значение для того, чтобы питать эти бессмысленные образцы, может быть хорошей идеей, чтобы пойти с логикой в точке .1 и начать с удаления меньших образцов, которые также негативны? Действительно любопытно услышать их!

Подробнее здесь: https://stackoverflow.com/questions/725 ... rse-positi
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»