Данные хранятся в паркете перед выполнением. Я должен загрузить его с помощью pl.scan_parquet (path) как pl.dataframe не вписывается в память.
Код: Выделить всё
import polars as pl
lf = pl.scan_parquet(path)
lf.select(pl.col("col_of_interest").sample(n=sample_size,seed=0)) \
.sink_parquet("sample.parquet") # (1) crashes
# (2) when above code is run without .sink_parquet():
lf.collect() # crashes
< /code>
В моем случае представляющий интерес столбца представляет собой содержание ползанной веб -страницы. Без этого столбца LazyFrame
Подробнее здесь: https://stackoverflow.com/questions/797 ... ame-python