версия pandas: 1.5.3
версия Polars: 0.20.9
ОС: Windows
Код: Выделить всё
import polars as pl
import pandas as pd
import time
data = {'id' : ['abcdefgh'*6] * 3_000_000,
'code' : ['20032'] * 3_000_000}
df = pl.DataFrame(data)
start = time.time()
df.write_parquet("try.parquet", use_pyarrow=False)
stop = time.time()
print(stop - start) # 13.43877625465393
start = time.time()
df.write_parquet("try.parquet", use_pyarrow=True)
stop = time.time()
print(stop - start) # 0.3627772331237793
df = pd.DataFrame(data)
start = time.time()
df.to_parquet("try.parquet")
stop = time.time()
print(stop - start) # 1.3980333805084229
Подробнее здесь: https://stackoverflow.com/questions/780 ... -very-slow
Мобильная версия