Потенциальная утечка данных при разработке функций временных рядов для прогнозного моделирования

Потенциальная утечка данных при разработке функций временных рядов для прогнозного моделирования ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Потенциальная утечка данных при разработке функций временных рядов для прогнозного моделирования

Цитата

Сообщение Anonymous » 23 сен 2024, 06:49

Я работаю над проектом машинного обучения, чтобы предсказать, когда активировать поставщиков в процессе промышленных закупок. У меня есть два основных набора данных:

Код: Выделить всё
```
doc3
```
: содержит ежедневную информацию о заказах на покупку.
Код: Выделить всё
```
expedite2
```
: Содержит записи о том, когда были активированы поставщики.

Моя цель — создать модель, которая может предсказать в любой конкретный день, будет ли поставщика необходимо активировать на основе исторических закономерностей.
Вот упрощенная версия моей текущей функции подготовки данных:

Код: Выделить всё

import pandas as pd

def optimized_join_and_prepare_data(doc3, expedite2):
doc3['PROCESS_DATE'] = pd.to_datetime(doc3['PROCESS_DATE'])
expedite2['LOG_DATE'] = pd.to_datetime(expedite2['LOG_DATE'])

doc3['item_key'] = doc3['DOC_NUM'].astype(str) + '_' + doc3['DOC_ITEM'].astype(str) + '_' + doc3['SAP_CODE']
expedite2['item_key'] = expedite2['DOC_NUM'].astype(str) + '_' + expedite2['DOC_ITEM'].astype(str) + '_' + expedite2['SAP_WEB_CODE']

doc3 = doc3.sort_values('PROCESS_DATE')
expedite2 = expedite2.sort_values('LOG_DATE')

merged = pd.merge_asof(doc3, expedite2[['item_key', 'LOG_DATE', 'DATA01']],
left_on='PROCESS_DATE',
right_on='LOG_DATE',
by='item_key',
direction='nearest',
tolerance=pd.Timedelta('2d'))

merged['LOG_DATE'] = merged['LOG_DATE'].fillna(pd.NaT)
merged['DATA01'] = merged['DATA01'].fillna('NO_ACTIVATION')
merged = merged.dropna(subset=['PROCESS_DATE', 'item_key'])

return merged

final_data = optimized_join_and_prepare_data(doc3, expedite2)

Мои основные опасения и вопросы:

Существует ли при таком подходе риск утечки данных, особенно с использованием merge_asof и двухдневной терпимостью?
Если присутствует утечка данных, как я могу это изменить функция, гарантирующая, что я использую только прошлую информацию для каждого прогнозируемого дня, сохраняя при этом вычислительную эффективность?
Есть ли какие-либо другие соображения, специфичные для временных рядов Что следует учитывать при подготовке этих данных для прогнозной модели?

Я имею дело с большим набором данных, поэтому эффективность вызывает беспокойство, но я хочу обеспечить целостность моего анализа временных рядов. Будем очень признательны за любые идеи и предложения по улучшению!
Я попробовал несколько подходов к подготовке данных временных рядов:

Изначально я использовал простое объединение ключа и даты элемента, но это привело к множеству пропущенных значений и не отразило временную природу данных.
Затем я реализовал функцию merge_asof, как показано в моем коде. Я ожидал, что это позволит совместить данные активации (из expedite2) с ближайшей датой обработки (из doc3) в пределах двухдневного окна. Это работало хорошо с точки зрения эффективности и, похоже, фиксировало недавние активации.
Я также добавил исторические функции, такие как предыдущие активации и дни с момента последней активации, используя функцию сдвига внутри каждой группы элементов.

Чего я ожидал:

Набор данных, в котором каждая строка в документе 3 дополнена самыми последними данными об активации.
Исторические объекты, фиксирующие прошлые шаблоны активации для каждый элемент.
Эффективный процесс, способный обрабатывать большие наборы данных.

Что произошло на самом деле:

Эта функция эффективно работает с моим большим набором данных.
Я получаю объединенный набор данных с информацией об активации и некоторыми историческими функциями. >
Однако я не уверен, что мне удалось полностью устранить утечку данных, особенно с помощью двухдневного допуска в merge_asof.
Я' Меня беспокоит, что функция сдвига для создания исторических объектов может не эффективно фиксировать долгосрочные закономерности.

Мне нужна проверка правильности мой подход или предложения по улучшению, особенно в отношении предотвращения утечки данных и более сложной разработки функций временных рядов.

Подробнее здесь: https://stackoverflow.com/questions/790 ... ve-modelin

1727063353

Anonymous

Я работаю над проектом машинного обучения, чтобы предсказать, когда активировать поставщиков в процессе промышленных закупок. У меня есть два основных набора данных:
[list]
[*][code]doc3[/code]: содержит ежедневную информацию о заказах на покупку.
[*][code]expedite2[/code]: Содержит записи о том, когда были активированы поставщики.
[/list]
Моя цель — создать модель, которая может предсказать в любой конкретный день, будет ли поставщика необходимо активировать на основе исторических закономерностей.
Вот упрощенная версия моей текущей функции подготовки данных:
[code]import pandas as pd

def optimized_join_and_prepare_data(doc3, expedite2):
doc3['PROCESS_DATE'] = pd.to_datetime(doc3['PROCESS_DATE'])
expedite2['LOG_DATE'] = pd.to_datetime(expedite2['LOG_DATE'])

doc3['item_key'] = doc3['DOC_NUM'].astype(str) + '_' + doc3['DOC_ITEM'].astype(str) + '_' + doc3['SAP_CODE']
expedite2['item_key'] = expedite2['DOC_NUM'].astype(str) + '_' + expedite2['DOC_ITEM'].astype(str) + '_' + expedite2['SAP_WEB_CODE']

doc3 = doc3.sort_values('PROCESS_DATE')
expedite2 = expedite2.sort_values('LOG_DATE')

merged = pd.merge_asof(doc3, expedite2[['item_key', 'LOG_DATE', 'DATA01']],
left_on='PROCESS_DATE',
right_on='LOG_DATE',
by='item_key',
direction='nearest',
tolerance=pd.Timedelta('2d'))

merged['LOG_DATE'] = merged['LOG_DATE'].fillna(pd.NaT)
merged['DATA01'] = merged['DATA01'].fillna('NO_ACTIVATION')
merged = merged.dropna(subset=['PROCESS_DATE', 'item_key'])

return merged

final_data = optimized_join_and_prepare_data(doc3, expedite2)
[/code]
Мои основные опасения и вопросы:
[list]
[*]Существует ли при таком подходе риск утечки данных, особенно с использованием merge_asof и двухдневной терпимостью?

[*]Если присутствует утечка данных, как я могу это изменить функция, гарантирующая, что я использую только прошлую информацию для каждого прогнозируемого дня, сохраняя при этом вычислительную эффективность?

[*]Есть ли какие-либо другие соображения, специфичные для временных рядов Что следует учитывать при подготовке этих данных для прогнозной модели?

[/list]
Я имею дело с большим набором данных, поэтому эффективность вызывает беспокойство, но я хочу обеспечить целостность моего анализа временных рядов. Будем очень признательны за любые идеи и предложения по улучшению!
Я попробовал несколько подходов к подготовке данных временных рядов:
[list]
[*]Изначально я использовал простое объединение ключа и даты элемента, но это привело к множеству пропущенных значений и не отразило временную природу данных.
[*]Затем я реализовал функцию merge_asof, как показано в моем коде. Я ожидал, что это позволит совместить данные активации (из expedite2) с ближайшей датой обработки (из doc3) в пределах двухдневного окна. Это работало хорошо с точки зрения эффективности и, похоже, фиксировало недавние активации.

[*]Я также добавил исторические функции, такие как предыдущие активации и дни с момента последней активации, используя функцию сдвига внутри каждой группы элементов.

[/list]
Чего я ожидал:
[list]
[*]Набор данных, в котором каждая строка в документе 3 дополнена самыми последними данными об активации.
[*]Исторические объекты, фиксирующие прошлые шаблоны активации для каждый элемент.
[*]Эффективный процесс, способный обрабатывать большие наборы данных.
[/list]
Что произошло на самом деле:
[list]
[*]Эта функция эффективно работает с моим большим набором данных.
[*]Я получаю объединенный набор данных с информацией об активации и некоторыми историческими функциями. >
[*]Однако я не уверен, что мне удалось полностью устранить утечку данных, особенно с помощью двухдневного допуска в merge_asof.
[*]Я' Меня беспокоит, что функция сдвига для создания исторических объектов может не эффективно фиксировать долгосрочные закономерности.
[/list]
Мне нужна проверка правильности мой подход или предложения по улучшению, особенно в отношении предотвращения утечки данных и более сложной разработки функций временных рядов. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79013088/potential-data-leakage-in-time-series-feature-engineering-for-predictive-modelin[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Классификация временных рядов с использованием запаздывающих данных и экзогенных переменных временных рядов для исследов

Последнее сообщение Anonymous « 26 сен 2024, 17:36
Добавлено в форуме Python

Anonymous » 26 сен 2024, 17:36 » в форуме Python

У меня есть следующий кадр данных pandas
import pandas as pd
pd.DataFrame({
'region': ,
'week': ,
'rain': ,
'clouds':
})

region week rain clouds
0 1 1 1 1
1 1 2 1 1
2 1 3 0 0
3 1 4 1 0
4 2 1 1 0
5 2 2 1 0
6 2 3 1 1
7 2 4 1 0
8 3 1 1 1
9 3 2 0 0...

0 Ответы

50 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 17:36
Как исправить/сбросить уменьшение временных метров при сохранении пробелов в данных временных рядов для обучения CNN?

Последнее сообщение Anonymous « 30 янв 2025, 15:05
Добавлено в форуме Python

Anonymous » 30 янв 2025, 15:05 » в форуме Python

В настоящее время я пытаюсь предварительно обработать данные из исследования, в котором видеодады были собраны у пчел. Запись и вместо увеличения вместо этого наблюдается внезапное снижение значений временных метров. Значения внезапно уменьшаются до...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
30 янв 2025, 15:05
Как исправить/сбросить уменьшение временных метров при сохранении пробелов в данных временных рядов для обучения CNN?

Последнее сообщение Anonymous « 30 янв 2025, 18:12
Добавлено в форуме Python

Anonymous » 30 янв 2025, 18:12 » в форуме Python

В настоящее время я пытаюсь предварительно обработать данные из исследования, в котором видеодады были собраны у пчел. Запись и вместо увеличения вместо этого наблюдается внезапное снижение значений временных метров. Значения внезапно уменьшаются до...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
30 янв 2025, 18:12
Удаление ложно заполненных рядов в данных временных рядов в пандах

Последнее сообщение Anonymous « 20 фев 2025, 18:38
Добавлено в форуме Python

Anonymous » 20 фев 2025, 18:38 » в форуме Python

У меня есть 1-минутные данные временных рядов с столбцами событий и продолжительности. Иногда события не случаются какое -то время, но последнее событие заполняется вперед, пока не произойдет следующее событие. Мы знаем, сколько минут каждые событие...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
20 фев 2025, 18:38
Проблема с объединением наборов данных временных рядов для согласованных временных интервалов

Последнее сообщение Anonymous « 10 янв 2025, 18:52
Добавлено в форуме Python

Anonymous » 10 янв 2025, 18:52 » в форуме Python

В настоящее время я работаю над проектом, в котором мне нужно сначала объединить два набора данных:
Первый набор данных содержит данные о погоде с 30-минутными интервалами. Второй набор данных содержит данные минутного уровня с фотоэлектрическим...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
10 янв 2025, 18:52

Вернуться в «Python»