Я работаю над проектом по прогнозированию оставшегося времени резервного копирования батарей в большой сети удаленных сайтов с использованием модели случайного леса выживания (RSF). У меня есть твердый план для создания моих целевых переменных (продолжительность и event_observed) из исторических журналов производительности. < /P>
Моя основная задача-создание надежного конвейера для обработки высококонсервативных функций предиктора, которые поступают из ежедневных журналов Data-Series из определения Data System Catterment instiste instiste datos. Данные с сотен сайтов, и качество очень непоследовательно: < /p>
Изменяющееся доступность данных: некоторые столбцы заполняются для одного сайта, но полностью нулевой для другого. Сайт A может использовать CurrentBank1, в то время как сайт B использует CurrentBank2, оставляя другие столбцы банка пустыми или с нулевыми значениями. < /P>
Логические и физические недостатки: некоторые сайты сообщают о данных, которые логически или физически невозможно. Например, значение оставшегося подъема, которое застряло на 100%, даже когда батарея явно разряжается, или сайт, который сообщает о напряжении, но имеет неудачный датчик тока (всегда нулевой или нулевой). < /P>
Предлагаемые мои предложенные стратегии
Я разработал две конкурирующие стратегии, чтобы справиться с этим, но я неубедительно, что более мощное или есть ли более лучшего способа > . «Анализ" для каждого на участке, снизу вверх "
В этом подходе я сначала выполнил бы глубокий анализ каждого сайта индивидуально, чтобы понять его уникальный профиль данных. < /P>
Для ежедневных данных каждого сайта запустите диагностический скрипт. Degraded_data). < /P>
Для здоровых сайтов запускайте логические проверки согласованности на их доступных данных (например, «уменьшается ли напряжение, когда ток является отрицательным?»). Неясно, что наилучшим образом состоит в том, чтобы объединить эти гетерогенные, подтвержденные наборы данных в единый, сплоченный тренировочный набор для одной универсальной модели. active_current, active_voltage, cell_voltage_delta, ambient_temperature). < /p>
Для ежедневных данных каждого сайта трубопровод только проверяет доступность и логическую согласованность этого предварительно определенного золотого набора. Отброшен. Тем не менее, я обеспокоен тем, что это может быть слишком ограничительным, заставляя меня отказаться от большого количества сайтов, которые могли бы быть частично выполнены, но все еще полезные данные. Or is there a hybrid approach I'm missing that combines the detailed diagnosis of A with the standardization goal of B?
Here is a conceptual example of my data to illustrate the problem:
siteid voltagebank1 currentbank1 voltagebank2 currentbank2 ...
Site_A 52.5V -10.1A (null) (null) ...
Site_b 52.4V 0.0a 52.4V -12.5a ... < /p>
Любые советы по лучшим практикам отрасли, потенциальные ловушки или альтернативные стратегии будут высоко оценены. Спасибо!
Подробнее здесь: https://stackoverflow.com/questions/797 ... ti-site-ti
Какова лучшая стратегия предварительной обработки для очень непоследовательного, многопользовательского набора времени в ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Какова лучшая стратегия обучения для обработки LLM файлов .xlsx? [закрыто]
Гость » » в форуме Python - 0 Ответы
- 0 Просмотры
-
Последнее сообщение Гость
-
-
-
Использовать одну базу данных для многопользовательского режима в приложении Android?
Anonymous » » в форуме Android - 0 Ответы
- 13 Просмотры
-
Последнее сообщение Anonymous
-