Добавьте столбец даты для каждого файла с помощью Polars при агрегировании нескольких файлов Parquet.

Добавьте столбец даты для каждого файла с помощью Polars при агрегировании нескольких файлов Parquet. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Добавьте столбец даты для каждого файла с помощью Polars при агрегировании нескольких файлов Parquet.

Цитата

Сообщение Anonymous » 10 ноя 2024, 22:19

У меня есть очень большое количество файлов данных Parquet, которые я могу легко объединить и агрегировать с помощью Polars, делая что-то вроде этого (обратите внимание на глобус в имени файла):

Код: Выделить всё

(
pl.scan_parquet('data/data-16828*.parquet')
.groupby(['type_id', 'location_id'])
.agg([
pl.min('n').alias('n_min'),
pl.max('n').alias('n_max')
])
.collect()
)

Каждый файл представляет собой результат выполнения скрипта каждые пять минут, и моя цель — создать из них единый таймсерийный DataFrame. Существует столбец даты типа datetime[μs, UTC]. Однако я обнаружил, что значения этого столбца не равны в одном файле, а скорее отражают точное время во время выполнения, когда была создана строка. Из-за этого столбец даты бесполезен для группировки.
На мой взгляд, мне, вероятно, следует добавить новый столбец и заполнить его значениями date значение первой строки для каждого файла. Можно ли добиться этого с помощью ленивого API Polars, или мне придется сначала исправить файлы, прежде чем запускать агрегацию с помощью Polars?
Обратите внимание, что мне нужно использовать ленивый API как набор данных намного больше памяти.

Подробнее здесь: https://stackoverflow.com/questions/763 ... ltiple-par

1731266353

Anonymous

У меня есть очень большое количество файлов данных Parquet, которые я могу легко объединить и агрегировать с помощью Polars, делая что-то вроде этого (обратите внимание на глобус в имени файла):
[code](
pl.scan_parquet('data/data-16828*.parquet')
.groupby(['type_id', 'location_id'])
.agg([
pl.min('n').alias('n_min'),
pl.max('n').alias('n_max')
])
.collect()
)
[/code]
Каждый файл представляет собой результат выполнения скрипта каждые пять минут, и моя цель — создать из них единый таймсерийный DataFrame. Существует столбец даты типа datetime[μs, UTC]. Однако я обнаружил, что значения этого столбца не равны в одном файле, а скорее отражают точное время во время выполнения, когда была создана строка. Из-за этого столбец даты бесполезен для группировки.
На мой взгляд, мне, вероятно, следует добавить новый столбец и заполнить его значениями date значение первой строки для каждого файла. Можно ли добиться этого с помощью ленивого API Polars, или мне придется сначала исправить файлы, прежде чем запускать агрегацию с помощью Polars?
Обратите внимание, что мне нужно использовать ленивый API как набор данных намного больше памяти. 

Подробнее здесь: [url]https://stackoverflow.com/questions/76376988/add-date-column-on-per-file-basis-with-polars-when-aggregating-over-multiple-par[/url]