Какова лучшая стратегия предварительной обработки для очень непоследовательного, многопользовательского набора времени вPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Какова лучшая стратегия предварительной обработки для очень непоследовательного, многопользовательского набора времени в

Сообщение Anonymous »

Я работаю над проектом по прогнозированию оставшегося времени резервного копирования батарей в большой сети удаленных сайтов с использованием модели случайного леса выживания (RSF). У меня есть твердый план для создания моих целевых переменных (продолжительность и event_observed) из исторических журналов производительности. < /P>
Моя основная задача-создание надежного конвейера для обработки высококонсервативных функций предиктора, которые поступают из ежедневных журналов Data-Series из определения Data System Catterment instiste instiste datos. Данные с сотен сайтов, и качество очень непоследовательно: < /p>
Изменяющееся доступность данных: некоторые столбцы заполняются для одного сайта, но полностью нулевой для другого. Сайт A может использовать CurrentBank1, в то время как сайт B использует CurrentBank2, оставляя другие столбцы банка пустыми или с нулевыми значениями. < /P>
Логические и физические недостатки: некоторые сайты сообщают о данных, которые логически или физически невозможно. Например, значение оставшегося подъема, которое застряло на 100%, даже когда батарея явно разряжается, или сайт, который сообщает о напряжении, но имеет неудачный датчик тока (всегда нулевой или нулевой). < /P>
Предлагаемые мои предложенные стратегии
Я разработал две конкурирующие стратегии, чтобы справиться с этим, но я неубедительно, что более мощное или есть ли более лучшего способа > . «Анализ" для каждого на участке, снизу вверх "
В этом подходе я сначала выполнил бы глубокий анализ каждого сайта индивидуально, чтобы понять его уникальный профиль данных. < /P>
Для ежедневных данных каждого сайта запустите диагностический скрипт. Degraded_data). < /P>
Для здоровых сайтов запускайте логические проверки согласованности на их доступных данных (например, «уменьшается ли напряжение, когда ток является отрицательным?»). Неясно, что наилучшим образом состоит в том, чтобы объединить эти гетерогенные, подтвержденные наборы данных в единый, сплоченный тренировочный набор для одной универсальной модели. active_current, active_voltage, cell_voltage_delta, ambient_temperature). < /p>
Для ежедневных данных каждого сайта трубопровод только проверяет доступность и логическую согласованность этого предварительно определенного золотого набора. Отброшен. Тем не менее, я обеспокоен тем, что это может быть слишком ограничительным, заставляя меня отказаться от большого количества сайтов, которые могли бы быть частично выполнены, но все еще полезные данные. Or is there a hybrid approach I'm missing that combines the detailed diagnosis of A with the standardization goal of B?
Here is a conceptual example of my data to illustrate the problem:
siteid voltagebank1 currentbank1 voltagebank2 currentbank2 ...
Site_A 52.5V -10.1A (null) (null) ...
Site_b 52.4V 0.0a 52.4V -12.5a ... < /p>
Любые советы по лучшим практикам отрасли, потенциальные ловушки или альтернативные стратегии будут высоко оценены. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/797 ... ti-site-ti
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Какова лучшая стратегия обучения для обработки LLM файлов .xlsx? [закрыто]
    Гость » » в форуме Python
    0 Ответы
    0 Просмотры
    Последнее сообщение Гость
  • Исправление непоследовательного ротации мыши в Panda3d
    Anonymous » » в форуме Python
    0 Ответы
    7 Просмотры
    Последнее сообщение Anonymous
  • Google в приложении покупки непоследовательного поведения бесплатно пробной пробной версии
    Anonymous » » в форуме Android
    0 Ответы
    5 Просмотры
    Последнее сообщение Anonymous
  • Ошибка во время предварительной обработки набора данных COCO2017.
    Anonymous » » в форуме Python
    0 Ответы
    10 Просмотры
    Последнее сообщение Anonymous
  • Использовать одну базу данных для многопользовательского режима в приложении Android?
    Anonymous » » в форуме Android
    0 Ответы
    13 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»