Чтение сжатого CSV параллельно с PolarsPython

Программы на Python
Ответить
Anonymous
 Чтение сжатого CSV параллельно с Polars

Сообщение Anonymous »

Предположим, у меня есть список файлов .csv.xz, и я хочу прочитать их параллельно.
Я знаю, что могу сделать это последовательно, используя выражение-генератор:

Код: Выделить всё

import glob
import lzma
import polars as pl

the_path = 'paths/to/my/*.csv.xz'
all_dfs = pl.concat(
(pl.read_csv(lzma.open(i)) for i in sorted(glob(the_path))),
how='vertical')
Но я также знаю о возможности (?) их параллельного чтения: https://docs.pola.rs/user-guide/io/mult ... n-parallel. Читая сигнатуру метода pl.scan_csv, кажется, что это возможно только с помощью Path или List[Path]. И учитывая, что, похоже, еще нет никакого вывода о сжатии (против pd.read_csv('file.csv.xz')), означает ли это, что я SOL со сжатыми CSV-файлами?
В качестве альтернативы, возможно ли в противном случае выполнять ввод-вывод параллельно без чего-то вроде joblib или concurrent.futures?

Подробнее здесь: https://stackoverflow.com/questions/784 ... n-parallel
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»