Когда будет выполняться ленивое выполнение ParDo в Apache Beam Python? - Цифровое Кемерово

Когда будет выполняться ленивое выполнение ParDo в Apache Beam Python? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Когда будет выполняться ленивое выполнение ParDo в Apache Beam Python?

Цитата

Сообщение Anonymous » 25 ноя 2024, 21:33

Мне интересно, когда будет оцениваться значение генератора при работе в лучевом конвейере и как в этом случае будут работать распределенные вычисления, поскольку в документации ParDos об этом не упоминается.
Цель состоит в том, чтобы ParDo лениво загружал все имена файлов в моей корзине, а затем загружал и обрабатывал их на максимальном количестве рабочих процессов в do_something_with_df.
Учитывая следующее код фрагмент:

Код: Выделить всё

import apache_beam as beam

class AcquireCsvs(beam.DoFn):

def process(self, element: None) -> Iterable[pd.Dataframe]:
files = beam.io.GcsIO().list_files("some location")
for file in files:
yield self._load_file(file)

def _load_file(self, filename) -> pd.Dataframe:
with beam.io.GcsIO().open(filename) as file:
return pd.read_csv(file)

with beam.Pipeline() as p:
(
p
| beam.Create([None])
| beam.ParDo(AcquireCsvs())
| beam.Map(do_something_with_df)
)

когда метод _load_file будет выполняться для каждого файла? Будет ли это в функции do_something_with_df так, как мне хотелось бы? Или все они будут оценены уже как часть ParDo и, следовательно, заблокируют весь мой конвейер на одном и том же начальном рабочем элементе?
Спасибо за любые подсказки, которые вы можете предоставить!

Подробнее здесь: https://stackoverflow.com/questions/792 ... e-executed

1732559610

Anonymous

Мне интересно, когда будет оцениваться значение генератора при работе в лучевом конвейере и как в этом случае будут работать распределенные вычисления, поскольку в документации ParDos об этом не упоминается.
Цель состоит в том, чтобы ParDo лениво загружал все имена файлов в моей корзине, а затем загружал и обрабатывал их на максимальном количестве рабочих процессов в do_something_with_df.
Учитывая следующее код фрагмент:
[code]import apache_beam as beam

class AcquireCsvs(beam.DoFn):

def process(self, element: None) -> Iterable[pd.Dataframe]:
files = beam.io.GcsIO().list_files("some location")
for file in files:
yield self._load_file(file)

def _load_file(self, filename) -> pd.Dataframe:
with beam.io.GcsIO().open(filename) as file:
return pd.read_csv(file)

with beam.Pipeline() as p:
(
p
| beam.Create([None])
| beam.ParDo(AcquireCsvs())
| beam.Map(do_something_with_df)
)

[/code]
когда метод _load_file будет выполняться для каждого файла? Будет ли это в функции do_something_with_df так, как мне хотелось бы? Или все они будут оценены уже как часть ParDo и, следовательно, заблокируют весь мой конвейер на одном и том же начальном рабочем элементе?
Спасибо за любые подсказки, которые вы можете предоставить! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79224233/when-will-the-lazy-execution-of-a-pardo-in-apache-beam-python-be-executed[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»