Каждая строка имеет следующую структуру:
Код: Выделить всё
timestamp, consumption
2020-01-01 00:00:00, 1250
2020-01-01 00:15:00, 1310
2020-01-01 00:30:00, 1285
...
Моя цель — обнаружить наиболее повторяющийся шаблон потребления (мотив) по всему набору данных.
Ограничения:
Длительность подпоследовательности является переменной (продолжительность мотива не фиксирована).
Мне нужно автоматически определять временные метки начала и окончания каждого обнаруженного подпоследовательность.
Набор данных содержит миллионы точек, поэтому масштабируемость важна.
Я работаю на Python.
Я рассматривал подходы, основанные на сходстве, такие как DTW, но не знаю, как:
Эффективно обрабатывать подпоследовательности переменной длины.
Определяйте точные начальные и конечные индексы каждой из них. мотив.
Масштабируйте решение до больших наборов данных.
Какой подход рекомендуется использовать для решения задачи обнаружения мотива такого типа?
Подробнее здесь: https://stackoverflow.com/questions/799 ... mes-series
Мобильная версия