Как перегруппировать файлы паркета с помощью поляров (в файловом хранилище)Python

Программы на Python
Anonymous
 Как перегруппировать файлы паркета с помощью поляров (в файловом хранилище)

Сообщение Anonymous »

Я использую набор данных из нескольких фреймов данных в качестве временного хранилища данных, доступного для сценариев использования Power BI и Python. Как я могу перегруппировать данные, используя поляры, во фреймы данных определенного размера?

Код: Выделить всё

from pathlib import Path
import uuid
import polars as pl

def repartition(directory_to_repartition, target_size):
repart_dir = Path(directory_to_repartition)
old_paths = [v for v in repart_dir.iterdir() if v.suffix == '.parquet']
frames = [pl.read_parquet(path) for path in old_paths]
big_frame = pl.concat(frame) # memory usage may or may not be tolerable
#############This method is the missing link I am looking for assuming I have sufficient memory for these operations########
new_frames = big_frame.split_partitions(partition_size=target_size)
for frame in new_frames:
frame.write_parquet(repart_dir / f"{uuid.uuid4()}.parquet")
for old in old_paths:
try:
old.unlink()
except FileNotFoundError:
pass
Обратите внимание, что функция Split_partitions представляет собой псевдометод полярных кадров данных. его не существует.

Подробнее здесь: https://stackoverflow.com/questions/750 ... le-storage

Вернуться в «Python»