Предположим, у меня есть URL-адреса, список URL-адресов s3 Parquet (на S3).
Я заметил, что этот сбор_all работает в O (urls).
Есть ли лучший способ распараллелить эту задачу?
import polars as pl
pl.collect_all((
pl.scan_parquet(url).filter(expr) for url in urls)
))
Подробнее здесь: https://stackoverflow.com/questions/792 ... n-parallel
Мобильная версия