«Правильный» способ подготовки и подачи нескольких кадров данных pandas, содержащих многомерные временные ряды, в LSTM в

«Правильный» способ подготовки и подачи нескольких кадров данных pandas, содержащих многомерные временные ряды, в LSTM в ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

«Правильный» способ подготовки и подачи нескольких кадров данных pandas, содержащих многомерные временные ряды, в LSTM в

Цитата

Сообщение Anonymous » 28 фев 2024, 12:56

Я новичок в работе с Tensorflow и в программировании в целом. Поэтому извините, если этот вопрос кажется тривиальным или ответ на него был дан где-то в другом месте, что я, возможно, не понял как решение моей проблемы.
Над чем я работаю
Проект, над которым я работаю, касается многомерной классификации временных рядов. Данные обучения, которые я использую, представляют собой около 100 кадров данных pandas, содержащих данные датчиков, сохраненные в формате CSV (хотел бы переключиться на соленья), состоящие из 13 функций/временных рядов. Столбцы/временные ряды в кадре данных во всех случаях имеют одинаковую длину, но сами кадры данных различаются по длине. Поскольку LSTM, похоже, поддерживают данные временных рядов разной длины (1, 2) в разных пакетах, я хотел бы попробовать их с различной длиной и добавить нулевое дополнение, если результаты неудовлетворительны. CSV-файлы сохраняются в разных папках с указанием 5 целей.

Мои данные упрощены и выглядят примерно так:

Для target1/example_t1_1.csv длиной n это будет:
время функцияA функцияB ... функцияK t1 а(t1) b(t1) ... К(t1) t2 а(t2) b(t2) ... К(t2) ... ... ... ... ... нет а(тн) b(tn) ... K(tn)
и target2/example_t2_1.csv длиной j:
время функцияA функцияB ... функцияK t1 а(t1) b(t1) ... К(t1) t2 а(t2) b(t2) ... К(t2) ... ... ... ... ... tj а(tj) b(tj) ... К(tj)
и так далее.
Какова моя цель
Моей целью было бы в основном использовать функции tf.data для создания конвейера данных, который считывает мои данные непосредственно в набор данных tf, на котором я затем выполняю другие операции, такие как поезд-тест-разделение, масштабирование и т. д. По крайней мере, мне кажется, что именно так вы и должны это делать. Или, по крайней мере, иметь более элегантный и удобный способ обработки данных многомерных временных рядов и способ маркировки данных по местоположению папки, как я делаю сейчас. Также сейчас работаю с 3d np.array. Я не могу понять, как читать данные разной длины без заполнения нулями.
Моя проблема
Я нахожу только ресурсы о том, как обращаться с tf.data с одним фреймом данных, где каждая строка представляет собой, по сути, один отдельный «обучающий экземпляр» (3, 4, 5), тогда как в моем случае я не Я хочу прочитать не один кадр данных в наборе данных, а несколько, где строки также должны рассматриваться как связанные. Я просто не могу понять, можно ли и как это сделать. Насколько я понимаю, моей целью должно быть создание некоего набора данных с размерами [num_of_различных_dfs, len_of_df (=None), num_of_features(13)]. С помощью этого видео (6) мне, по крайней мере, удалось поместить цели в набор данных tf, но мне не удалось сделать то же самое с фактическими данными.

Надеюсь, мой вопрос с пояснениями моих мыслей был понятен. Я был бы очень рад, если бы кто-нибудь мог предоставить дополнительную информацию о том, как правильно обрабатывать данные многомерных временных рядов, или направить меня к нужным ресурсам. Спасибо, что нашли время прочитать все это!
Как я читаю данные на данный момент
До сих пор я все считывал данные «вручную»: я написал две функции для поиска CSV с кратчайшим временным рядом (8 выборок) и считывал каждый из них такой длины как составной кадр данных для каждого цель. (Я знаю, что выбрасывать данные — это большая проблема, но в то время я не знал этого лучше.) В итоге у меня получилось 5 разных фреймов данных, содержащих данные временных рядов для каждой цели. Зная количество отдельных временных рядов, функция создала целевой вектор для каждой цели. Позже объединил 5 фреймов данных в массивы NumPy и сделал то же самое для целевых векторов, в результате чего у меня появился один двумерный массив «X» размера (8 * 100, 13) и целевой вектор «y» размера (100, 1). Затем X я превратил в трехмерный массив размером (100, 8, 13). Поскольку я хранил данные тестирования в другой папке, в которой выполнял те же действия, я не разделял X и y для обучения, тестирования и разделения. Вероятно, я бы не хотел делать это снова

В конце концов я создал MinMax-Scaler со sklearn на X и применил его затем на X_test. Все это работает, но, похоже, не подходит для многомерных временных рядов, особенно разной длины. Надеюсь, это было понятно и вы видите, что это довольно окольный путь.

1709114178

Anonymous

Мои данные упрощены и выглядят примерно так:

Для target1/example_t1_1.csv длиной n это будет:
время функцияA функцияB ... функцияK t1 а(t1) b(t1) ... К(t1) t2 а(t2) b(t2) ... К(t2) ... ... ... ... ... нет а(тн) b(tn) ... K(tn)
и target2/example_t2_1.csv длиной j:
время функцияA функцияB ... функцияK t1 а(t1) b(t1) ... К(t1) t2 а(t2) b(t2) ... К(t2) ... ... ... ... ... tj а(tj) b(tj) ... К(tj)
и так далее.
Какова моя цель
Моей целью было бы в основном использовать функции tf.data для создания конвейера данных, который считывает мои данные непосредственно в набор данных tf, на котором я затем выполняю другие операции, такие как поезд-тест-разделение, масштабирование и т. д. По крайней мере, мне кажется, что именно так вы и должны это делать. Или, по крайней мере, иметь более элегантный и удобный способ обработки данных многомерных временных рядов и способ маркировки данных по местоположению папки, как я делаю сейчас. Также сейчас работаю с 3d np.array. Я не могу понять, как читать данные разной длины без заполнения нулями.
Моя проблема
Я нахожу только ресурсы о том, как обращаться с tf.data с одним фреймом данных, где каждая строка представляет собой, по сути, один отдельный «обучающий экземпляр» (3, 4, 5), тогда как в моем случае я не Я хочу прочитать не один кадр данных в наборе данных, а несколько, где строки также должны рассматриваться как связанные. Я просто не могу понять, можно ли и как это сделать. Насколько я понимаю, моей целью должно быть создание некоего набора данных с размерами [num_of_различных_dfs, len_of_df (=None), num_of_features(13)]. С помощью этого видео (6) мне, по крайней мере, удалось поместить цели в набор данных tf, но мне не удалось сделать то же самое с фактическими данными.

Надеюсь, мой вопрос с пояснениями моих мыслей был понятен. Я был бы очень рад, если бы кто-нибудь мог предоставить дополнительную информацию о том, как правильно обрабатывать данные многомерных временных рядов, или направить меня к нужным ресурсам. Спасибо, что нашли время прочитать все это!
Как я читаю данные на данный момент
До сих пор я все считывал данные «вручную»: я написал две функции для поиска CSV с кратчайшим временным рядом (8 выборок) и считывал каждый из них такой длины как составной кадр данных для каждого цель. (Я знаю, что выбрасывать данные — это большая проблема, но в то время я не знал этого лучше.) В итоге у меня получилось 5 разных фреймов данных, содержащих данные временных рядов для каждой цели. Зная количество отдельных временных рядов, функция создала целевой вектор для каждой цели. Позже объединил 5 фреймов данных в массивы NumPy и сделал то же самое для целевых векторов, в результате чего у меня появился один двумерный массив «X» размера (8 * 100, 13) и целевой вектор «y» размера (100, 1). Затем X я превратил в трехмерный массив размером (100, 8, 13). Поскольку я хранил данные тестирования в другой папке, в которой выполнял те же действия, я не разделял X и y для обучения, тестирования и разделения. Вероятно, я бы не хотел делать это снова :D В конце концов я создал MinMax-Scaler со sklearn на X и применил его затем на X_test. Все это работает, но, похоже, не подходит для многомерных временных рядов, особенно разной длины. Надеюсь, это было понятно и вы видите, что это довольно окольный путь.

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

«Правильный» способ подготовки и подачи нескольких кадров данных pandas, содержащих многомерные временные ряды, в LSTM в

Последнее сообщение Anonymous « 28 фев 2024, 13:27
Добавлено в форуме Python

Anonymous » 28 фев 2024, 13:27 » в форуме Python

Я новичок в работе с Tensorflow и в программировании в целом. Поэтому извините, если этот вопрос кажется тривиальным или ответ на него был дан где-то в другом месте, что я, возможно, не понял как решение моей проблемы.
Над чем я работаю
Проект,...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
28 фев 2024, 13:27
Как интерполировать временные ряды панд, используя разные временные метки

Последнее сообщение Anonymous « 07 ноя 2024, 13:09
Добавлено в форуме Python

Anonymous » 07 ноя 2024, 13:09 » в форуме Python

Я ищу функцию
pandas_interpolate(df: pd.DataFrame, newTime: pd.DatetimeIndex, method: str = 'linear') -> pd.DataFrame

который будет принимать существующий фрейм данных с индексом DatetimeIndex и возвращать новый фрейм данных с индексом, заданным...

0 Ответы

54 Просмотры

Последнее сообщение Anonymous
07 ноя 2024, 13:09
Как интерполировать временные ряды панд, используя разные временные метки

Последнее сообщение Anonymous « 07 ноя 2024, 13:41
Добавлено в форуме Python

Anonymous » 07 ноя 2024, 13:41 » в форуме Python

Я ищу функцию
pandas_interpolate(df: pd.DataFrame, newTime: pd.DatetimeIndex, method: str = 'linear') -> pd.DataFrame

который будет принимать существующий фрейм данных с индексом DatetimeIndex и возвращать новый фрейм данных с индексом, заданным...

0 Ответы

49 Просмотры

Последнее сообщение Anonymous
07 ноя 2024, 13:41
Рекурсивно преобразовать многомерные данные массива в новые многомерные переменные с иерархическими метаданными включены

Последнее сообщение Anonymous « 19 июн 2025, 03:49
Добавлено в форуме Php

Anonymous » 19 июн 2025, 03:49 » в форуме Php

У меня есть массив некоторых параметров (например, файл конфигурации YAML), и это необходимо записать в базу данных окончательно с первичными идентификаторами и т. Д.$settings = [
'basic' => [ // first level category
'installation_type' => [ //...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
19 июн 2025, 03:49
Профиль подготовки «Профиль подготовки команды iOS: Com.

Последнее сообщение Anonymous « 31 янв 2025, 00:00
Добавлено в форуме IOS

Anonymous » 31 янв 2025, 00:00 » в форуме IOS

Недавно я получил новую MCBook Pro M1, и я разрабатывал свое приложение с помощью XCODE. Он работал нормально в течение нескольких недель, и всякий раз, когда я его строю, я бы построил свое приложение Swiftui iOS на свой Mac, используя вариант iOS>...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
31 янв 2025, 00:00

Вернуться в «Python»