Перед выполнением данные сохраняются в паркетном файле. Я должен загрузить его с помощью pl.scan_parquet(path), поскольку pl.DataFrame не помещается в память.
Что я пробовал до сих пор:
Код: Выделить всё
import polars as pl
lf = pl.scan_parquet(path)
lf.select(pl.col("col_of_interest").sample(n=sample_size,seed=0)) \
.sink_parquet("sample.parquet") # (1) crashes
# (2) when above code is run without .sink_parquet():
lf.collect() # crashes
Мой вопрос:
Каков правильный (эффективный с точки зрения памяти) способ выборки из pl.LazyFrame?
Решения с эффективным использованием памяти, которые производят выборку при сканировании (или чтении) данных, также принимаются.
Подробнее здесь: https://stackoverflow.com/questions/797 ... -lazyframe