Добавьте столбец даты для каждого файла с помощью Polars при агрегировании нескольких файлов Parquet.Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Добавьте столбец даты для каждого файла с помощью Polars при агрегировании нескольких файлов Parquet.

Сообщение Anonymous »

У меня есть очень большое количество файлов данных Parquet, которые я могу легко объединить и агрегировать с помощью Polars, делая что-то вроде этого (обратите внимание на глобус в имени файла):

Код: Выделить всё

(
pl.scan_parquet('data/data-16828*.parquet')
.groupby(['type_id', 'location_id'])
.agg([
pl.min('n').alias('n_min'),
pl.max('n').alias('n_max')
])
.collect()
)
Каждый файл представляет собой результат выполнения скрипта каждые пять минут, и моя цель — создать из них единый таймсерийный DataFrame. Существует столбец даты типа datetime[μs, UTC]. Однако я обнаружил, что значения этого столбца не равны в одном файле, а скорее отражают точное время во время выполнения, когда была создана строка. Из-за этого столбец даты бесполезен для группировки.
На мой взгляд, мне, вероятно, следует добавить новый столбец и заполнить его значениями date значение первой строки для каждого файла. Можно ли добиться этого с помощью ленивого API Polars, или мне придется сначала исправить файлы, прежде чем запускать агрегацию с помощью Polars?
Обратите внимание, что мне нужно использовать ленивый API как набор данных намного больше памяти.

Подробнее здесь: https://stackoverflow.com/questions/763 ... ltiple-par
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)
    Anonymous » » в форуме Python
    0 Ответы
    6 Просмотры
    Последнее сообщение Anonymous
  • Чтение файлов Parquet с использованием parquet.net занимает больше времени, чем Pyarrow (Python)
    Anonymous » » в форуме Python
    0 Ответы
    6 Просмотры
    Последнее сообщение Anonymous
  • Сравните фреймы данных Polars, в которых есть столбец даты Polars
    Anonymous » » в форуме Python
    0 Ответы
    21 Просмотры
    Последнее сообщение Anonymous
  • Расхождения в агрегировании данных о калориях с использованием HealthConnect API
    Anonymous » » в форуме Android
    0 Ответы
    35 Просмотры
    Последнее сообщение Anonymous
  • Преобразовать _id (ObjectId) в строку в агрегировании для поиска Spring boot
    Anonymous » » в форуме JAVA
    0 Ответы
    16 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»