Экспорт полярных изображений с помощью метода .write_parquet выполняется очень медленно.Python

Программы на Python
Ответить
Anonymous
 Экспорт полярных изображений с помощью метода .write_parquet выполняется очень медленно.

Сообщение Anonymous »

Я обнаружил значительную разницу в производительности при экспорте данных в формат Parquet с помощью Polars по сравнению с использованием PyArrow или Pandas. Ниже приведен фрагмент кода, который я использую:
версия pandas: 1.5.3
версия Polars: 0.20.9
ОС: Windows

Код: Выделить всё

import polars as pl
import pandas as pd
import time

data = {'id' : ['abcdefgh'*6] * 3_000_000,
'code' : ['20032'] * 3_000_000}

df = pl.DataFrame(data)
start = time.time()
df.write_parquet("try.parquet", use_pyarrow=False)
stop = time.time()
print(stop - start) # 13.43877625465393

start = time.time()
df.write_parquet("try.parquet", use_pyarrow=True)
stop = time.time()
print(stop - start) # 0.3627772331237793

df = pd.DataFrame(data)
start = time.time()
df.to_parquet("try.parquet")
stop = time.time()
print(stop - start) # 1.3980333805084229
Учитывая, что мой исходный набор данных очень похож на созданные мной синтетические данные, которые состоят из длинных строк, я с удивлением обнаружил, что экспорт в формат Parquet с помощью Polars занимает значительно больше времени по сравнению с использованием PyArrow или Pandas. Это ожидаемое поведение? Я ожидаю, что у Polars время экспорта будет быстрее или примерно такое же.

Подробнее здесь: https://stackoverflow.com/questions/780 ... -very-slow
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»