Как я могу эффективно сканировать несколько удаленных файлов паркета параллельно? - Цифровое Кемерово

Как я могу эффективно сканировать несколько удаленных файлов паркета параллельно? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как я могу эффективно сканировать несколько удаленных файлов паркета параллельно?

Цитата

Сообщение Anonymous » 03 дек 2024, 09:10

Предположим, у меня есть URL-адреса, список URL-адресов s3 Parquet (на S3).
Я заметил, что этот сбор_all работает в O (urls).
Есть ли лучший способ распараллелить эту задачу?
import polars as pl
pl.collect_all((
pl.scan_parquet(url).filter(expr) for url in urls)
))

Подробнее здесь: https://stackoverflow.com/questions/792 ... n-parallel

1733206226

Anonymous

Предположим, у меня есть URL-адреса, список URL-адресов s3 Parquet (на S3).
Я заметил, что этот сбор_all работает в O (urls).
Есть ли лучший способ распараллелить эту задачу?
import polars as pl
pl.collect_all((
pl.scan_parquet(url).filter(expr) for url in urls)
))
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79245886/how-can-i-efficiently-scan-multiple-remote-parquet-files-in-parallel[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»