Я работаю над проектом машинного обучения, чтобы предсказать, когда активировать поставщиков в процессе промышленных закупок. У меня есть два основных набора данных:
: Содержит записи о том, когда были активированы поставщики.
Моя цель — создать модель, которая может предсказать в любой конкретный день, будет ли поставщика необходимо активировать на основе исторических закономерностей.
Вот упрощенная версия моей текущей функции подготовки данных:
Существует ли при таком подходе риск утечки данных, особенно с использованием merge_asof и двухдневной терпимостью?
Если присутствует утечка данных, как я могу это изменить функция, гарантирующая, что я использую только прошлую информацию для каждого прогнозируемого дня, сохраняя при этом вычислительную эффективность?
Есть ли какие-либо другие соображения, специфичные для временных рядов Что следует учитывать при подготовке этих данных для прогнозной модели?
Я имею дело с большим набором данных, поэтому эффективность вызывает беспокойство, но я хочу обеспечить целостность моего анализа временных рядов. Будем очень признательны за любые идеи и предложения по улучшению!
Я попробовал несколько подходов к подготовке данных временных рядов:
Изначально я использовал простое объединение ключа и даты элемента, но это привело к множеству пропущенных значений и не отразило временную природу данных.
Затем я реализовал функцию merge_asof, как показано в моем коде. Я ожидал, что это позволит совместить данные активации (из expedite2) с ближайшей датой обработки (из doc3) в пределах двухдневного окна. Это работало хорошо с точки зрения эффективности и, похоже, фиксировало недавние активации.
Я также добавил исторические функции, такие как предыдущие активации и дни с момента последней активации, используя функцию сдвига внутри каждой группы элементов.
Чего я ожидал:
Набор данных, в котором каждая строка в документе 3 дополнена самыми последними данными об активации.
Исторические объекты, фиксирующие прошлые шаблоны активации для каждый элемент.
Эффективный процесс, способный обрабатывать большие наборы данных.
Что произошло на самом деле:
Эта функция эффективно работает с моим большим набором данных.
Я получаю объединенный набор данных с информацией об активации и некоторыми историческими функциями. >
Однако я не уверен, что мне удалось полностью устранить утечку данных, особенно с помощью двухдневного допуска в merge_asof.
Я' Меня беспокоит, что функция сдвига для создания исторических объектов может не эффективно фиксировать долгосрочные закономерности.
Мне нужна проверка правильности мой подход или предложения по улучшению, особенно в отношении предотвращения утечки данных и более сложной разработки функций временных рядов.
Я работаю над проектом машинного обучения, чтобы предсказать, когда активировать поставщиков в процессе промышленных закупок. У меня есть два основных набора данных: [list] [*][code]doc3[/code]: содержит ежедневную информацию о заказах на покупку. [*][code]expedite2[/code]: Содержит записи о том, когда были активированы поставщики. [/list] Моя цель — создать модель, которая может предсказать в любой конкретный день, будет ли поставщика необходимо активировать на основе исторических закономерностей. Вот упрощенная версия моей текущей функции подготовки данных: [code]import pandas as pd
final_data = optimized_join_and_prepare_data(doc3, expedite2) [/code] Мои основные опасения и вопросы: [list] [*]Существует ли при таком подходе риск утечки данных, особенно с использованием merge_asof и двухдневной терпимостью?
[*]Если присутствует утечка данных, как я могу это изменить функция, гарантирующая, что я использую только прошлую информацию для каждого прогнозируемого дня, сохраняя при этом вычислительную эффективность?
[*]Есть ли какие-либо другие соображения, специфичные для временных рядов Что следует учитывать при подготовке этих данных для прогнозной модели?
[/list] Я имею дело с большим набором данных, поэтому эффективность вызывает беспокойство, но я хочу обеспечить целостность моего анализа временных рядов. Будем очень признательны за любые идеи и предложения по улучшению! Я попробовал несколько подходов к подготовке данных временных рядов: [list] [*]Изначально я использовал простое объединение ключа и даты элемента, но это привело к множеству пропущенных значений и не отразило временную природу данных. [*]Затем я реализовал функцию merge_asof, как показано в моем коде. Я ожидал, что это позволит совместить данные активации (из expedite2) с ближайшей датой обработки (из doc3) в пределах двухдневного окна. Это работало хорошо с точки зрения эффективности и, похоже, фиксировало недавние активации.
[*]Я также добавил исторические функции, такие как предыдущие активации и дни с момента последней активации, используя функцию сдвига внутри каждой группы элементов.
[/list] Чего я ожидал: [list] [*]Набор данных, в котором каждая строка в документе 3 дополнена самыми последними данными об активации. [*]Исторические объекты, фиксирующие прошлые шаблоны активации для каждый элемент. [*]Эффективный процесс, способный обрабатывать большие наборы данных. [/list] Что произошло на самом деле: [list] [*]Эта функция эффективно работает с моим большим набором данных. [*]Я получаю объединенный набор данных с информацией об активации и некоторыми историческими функциями. > [*]Однако я не уверен, что мне удалось полностью устранить утечку данных, особенно с помощью двухдневного допуска в merge_asof. [*]Я' Меня беспокоит, что функция сдвига для создания исторических объектов может не эффективно фиксировать долгосрочные закономерности. [/list] Мне нужна проверка правильности мой подход или предложения по улучшению, особенно в отношении предотвращения утечки данных и более сложной разработки функций временных рядов.
В настоящее время я пытаюсь предварительно обработать данные из исследования, в котором видеодады были собраны у пчел. Запись и вместо увеличения вместо этого наблюдается внезапное снижение значений временных метров. Значения внезапно уменьшаются до...
В настоящее время я пытаюсь предварительно обработать данные из исследования, в котором видеодады были собраны у пчел. Запись и вместо увеличения вместо этого наблюдается внезапное снижение значений временных метров. Значения внезапно уменьшаются до...
У меня есть 1-минутные данные временных рядов с столбцами событий и продолжительности. Иногда события не случаются какое -то время, но последнее событие заполняется вперед, пока не произойдет следующее событие. Мы знаем, сколько минут каждые событие...
В настоящее время я работаю над проектом, в котором мне нужно сначала объединить два набора данных:
Первый набор данных содержит данные о погоде с 30-минутными интервалами. Второй набор данных содержит данные минутного уровня с фотоэлектрическим...