Как правильный способ выборки из Polars.lazyFrame (Python)?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как правильный способ выборки из Polars.lazyFrame (Python)?

Сообщение Anonymous »

Я имею дело с огромным количеством данных (из набора данных CC News). < /p>
Данные хранятся в паркете перед выполнением. Я должен загрузить его с помощью pl.scan_parquet (path) как pl.dataframe не вписывается в память.

Код: Выделить всё

import polars as pl

lf = pl.scan_parquet(path)
lf.select(pl.col("col_of_interest").sample(n=sample_size,seed=0)) \
.sink_parquet("sample.parquet") # (1) crashes

# (2) when above code is run without .sink_parquet():
lf.collect() # crashes
< /code>
В моем случае представляющий интерес столбца представляет собой содержание ползанной веб -страницы. Без этого столбца LazyFrame 
можно легко собрать, поскольку полученный DataFrame намного меньше по размеру. При выполнении приведенного выше кода с помощью COL_OF_INTERT , даже если Sample_size = 1 , программа сбоя (я точно знаю, что образец размера 1 вписывается в память). Вместо этого используя другой столбец с гораздо меньшими данными, программа выполняется без каких -либо жалоб.>

Подробнее здесь: https://stackoverflow.com/questions/797 ... ame-python
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»