Какова лучшая стратегия предварительной обработки для очень непоследовательного, многопользовательского набора времени в

Какова лучшая стратегия предварительной обработки для очень непоследовательного, многопользовательского набора времени в ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Какова лучшая стратегия предварительной обработки для очень непоследовательного, многопользовательского набора времени в

Цитата

Сообщение Anonymous » 25 июл 2025, 14:11

Я работаю над проектом по прогнозированию оставшегося времени резервного копирования батарей в большой сети удаленных сайтов с использованием модели случайного леса выживания (RSF). У меня есть твердый план для создания моих целевых переменных (продолжительность и event_observed) из исторических журналов производительности. 
Моя основная задача-создание надежного конвейера для обработки высококонсервативных функций предиктора, которые поступают из ежедневных журналов Data-Series из определения Data System Catterment instiste instiste datos. Данные с сотен сайтов, и качество очень непоследовательно: 
Изменяющееся доступность данных: некоторые столбцы заполняются для одного сайта, но полностью нулевой для другого. Сайт A может использовать CurrentBank1, в то время как сайт B использует CurrentBank2, оставляя другие столбцы банка пустыми или с нулевыми значениями. 
Логические и физические недостатки: некоторые сайты сообщают о данных, которые логически или физически невозможно. Например, значение оставшегося подъема, которое застряло на 100%, даже когда батарея явно разряжается, или сайт, который сообщает о напряжении, но имеет неудачный датчик тока (всегда нулевой или нулевой). 
Предлагаемые мои предложенные стратегии
Я разработал две конкурирующие стратегии, чтобы справиться с этим, но я неубедительно, что более мощное или есть ли более лучшего способа > . «Анализ" для каждого на участке, снизу вверх "
В этом подходе я сначала выполнил бы глубокий анализ каждого сайта индивидуально, чтобы понять его уникальный профиль данных. 
Для ежедневных данных каждого сайта запустите диагностический скрипт. Degraded_data). 
Для здоровых сайтов запускайте логические проверки согласованности на их доступных данных (например, «уменьшается ли напряжение, когда ток является отрицательным?»). Неясно, что наилучшим образом состоит в том, чтобы объединить эти гетерогенные, подтвержденные наборы данных в единый, сплоченный тренировочный набор для одной универсальной модели. active_current, active_voltage, cell_voltage_delta, ambient_temperature). 
Для ежедневных данных каждого сайта трубопровод только проверяет доступность и логическую согласованность этого предварительно определенного золотого набора. Отброшен. Тем не менее, я обеспокоен тем, что это может быть слишком ограничительным, заставляя меня отказаться от большого количества сайтов, которые могли бы быть частично выполнены, но все еще полезные данные. Or is there a hybrid approach I'm missing that combines the detailed diagnosis of A with the standardization goal of B?
Here is a conceptual example of my data to illustrate the problem:
siteid voltagebank1 currentbank1 voltagebank2 currentbank2 ...
Site_A 52.5V -10.1A (null) (null) ...
Site_b 52.4V 0.0a 52.4V -12.5a ... 
Любые советы по лучшим практикам отрасли, потенциальные ловушки или альтернативные стратегии будут высоко оценены. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/797 ... ti-site-ti

1753441886

Anonymous

 Я работаю над проектом по прогнозированию оставшегося времени резервного копирования батарей в большой сети удаленных сайтов с использованием модели случайного леса выживания (RSF). У меня есть твердый план для создания моих целевых переменных (продолжительность и event_observed) из исторических журналов производительности. < /P>
Моя основная задача-создание надежного конвейера для обработки высококонсервативных функций предиктора, которые поступают из ежедневных журналов Data-Series из определения Data System Catterment instiste instiste datos. Данные с сотен сайтов, и качество очень непоследовательно: < /p>
Изменяющееся доступность данных: некоторые столбцы заполняются для одного сайта, но полностью нулевой для другого. Сайт A может использовать CurrentBank1, в то время как сайт B использует CurrentBank2, оставляя другие столбцы банка пустыми или с нулевыми значениями. < /P>
Логические и физические недостатки: некоторые сайты сообщают о данных, которые логически или физически невозможно. Например, значение оставшегося подъема, которое застряло на 100%, даже когда батарея явно разряжается, или сайт, который сообщает о напряжении, но имеет неудачный датчик тока (всегда нулевой или нулевой). < /P>
Предлагаемые мои предложенные стратегии
Я разработал две конкурирующие стратегии, чтобы справиться с этим, но я неубедительно, что более мощное или есть ли более лучшего способа >                       . «Анализ" для каждого на участке, снизу вверх "
В этом подходе я сначала выполнил бы глубокий анализ каждого сайта индивидуально, чтобы понять его уникальный профиль данных. < /P>
Для ежедневных данных каждого сайта запустите диагностический скрипт. Degraded_data). < /P>
Для здоровых сайтов запускайте логические проверки согласованности на их доступных данных (например, «уменьшается ли напряжение, когда ток является отрицательным?»). Неясно, что наилучшим образом состоит в том, чтобы объединить эти гетерогенные, подтвержденные наборы данных в единый, сплоченный тренировочный набор для одной универсальной модели. active_current, active_voltage, cell_voltage_delta, ambient_temperature). < /p>
Для ежедневных данных каждого сайта трубопровод только проверяет доступность и логическую согласованность этого предварительно определенного золотого набора. Отброшен. Тем не менее, я обеспокоен тем, что это может быть слишком ограничительным, заставляя меня отказаться от большого количества сайтов, которые могли бы быть частично выполнены, но все еще полезные данные. Or is there a hybrid approach I'm missing that combines the detailed diagnosis of A with the standardization goal of B?
Here is a conceptual example of my data to illustrate the problem:
siteid  voltagebank1    currentbank1    voltagebank2    currentbank2 ...
Site_A  52.5V           -10.1A          (null)          (null) ...
Site_b 52.4V 0.0a 52.4V -12.5a ... < /p>
Любые советы по лучшим практикам отрасли, потенциальные ловушки или альтернативные стратегии будут высоко оценены. Спасибо!  

Подробнее здесь: [url]https://stackoverflow.com/questions/79714580/what-is-the-best-preprocessing-strategy-for-a-highly-inconsistent-multi-site-ti[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Какова лучшая стратегия обучения для обработки LLM файлов .xlsx? [закрыто]

Последнее сообщение Гость « 05 сен 2025, 13:02
Добавлено в форуме Python

Гость » 05 сен 2025, 13:02 » в форуме Python

Задача в том, что файлы Excel структурированы (строки, столбцы, листы), поэтому в отличие от простого текста, наивный брюк может потерять важные отношения между ячеек. Разделы (например, заголовки + блок данных)?
Существуют ли лучшие методы...

0 Ответы

0 Просмотры

Последнее сообщение Гость
05 сен 2025, 13:02
Исправление непоследовательного ротации мыши в Panda3d

Последнее сообщение Anonymous « 07 фев 2025, 05:55
Добавлено в форуме Python

Anonymous » 07 фев 2025, 05:55 » в форуме Python

Недавно я хотел начать делать 3D -тестировку с Panda3d с помощью Python. Тем не менее, я не могу имитировать вращение мыши в среде, которое есть у других популярных игр от первого лица.
Позвольте мне объяснить:
Если я медленно перемещаю свою мышь...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 05:55
Google в приложении покупки непоследовательного поведения бесплатно пробной пробной версии

Последнее сообщение Anonymous « 27 июн 2025, 03:35
Добавлено в форуме Android

Anonymous » 27 июн 2025, 03:35 » в форуме Android

Я использую React-C-IAP для подписок в моем Native App. Ниже приведена функция, которую я использую для запроса подписок на Android:
const requestSubscriptionAndroid = async (
activePlan,
currentUser,
requestSubscription,
existingSubscription,
) =>...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
27 июн 2025, 03:35
Ошибка во время предварительной обработки набора данных COCO2017.

Последнее сообщение Anonymous « 23 сен 2024, 00:09
Добавлено в форуме Python

Anonymous » 23 сен 2024, 00:09 » в форуме Python

Я обучаю mobilenetV2 с помощью COCO2017 обнаружению людей. Я застрял в предварительной обработке набора данных, чтобы изменить его на набор данных Tensorflow. И когда мне удалось изменить, он не анализируется правильно, что приводит к ошибке при...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 00:09
Использовать одну базу данных для многопользовательского режима в приложении Android?

Последнее сообщение Anonymous « 18 ноя 2024, 08:15
Добавлено в форуме Android

Anonymous » 18 ноя 2024, 08:15 » в форуме Android

Я разрабатываю приложение и хочу видеть офлайн-данные, если Интернет недоступен. И это приложение может использовать несколько пользователей, например, после выхода из системы одного пользователя, затем другой пользователь может войти в систему и...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
18 ноя 2024, 08:15

Вернуться в «Python»