Моя цель — обнаружить наиболее повторяющийся шаблон потребления (мотив) в этом наборе данных.
Однако я сталкиваюсь с несколькими проблемами:
- Подпоследовательности могут иметь переменную длину (продолжительность шаблона не исправлено).
- Мне нужно автоматически определять временные метки начала и окончания каждой обнаруженной подпоследовательности.
- Набор данных очень большой (миллионы точек данных), поэтому масштабируемость важна.
- Определить наиболее частый или репрезентативный мотив?
- Обрабатывать подпоследовательности переменной длины?
- Эффективно определять начальный и конечный индексы каждого появления мотива?
Будем очень признательны за любые рекомендации, алгоритмы или библиотеки.
Подробнее здесь: https://stackoverflow.com/questions/799 ... mes-series
Мобильная версия