Как заставить искру повторно использовать рабочие Python, если мы выполнили дорогостоящую настройку инициализации? - Цифровое Кемерово

Как заставить искру повторно использовать рабочие Python, если мы выполнили дорогостоящую настройку инициализации? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как заставить искру повторно использовать рабочие Python, если мы выполнили дорогостоящую настройку инициализации?

Цитата

Сообщение Anonymous » 13 янв 2026, 22:31

Я пытаюсь оптимизировать выполнение UDF панд в PySpark. Когда я запускаю UDF, я выполняю некоторые дорогостоящие инициализации, например загружаю модель машинного обучения. Это разовая операция, и я не хочу делать это повторно. Я хочу повторно использовать рабочие процессы Python с инициализированной настройкой.
Для этого я увидел, что искра предоставляет конфигурацию - spark.sql.execution.pyspark.udf.idleTimeoutSeconds.
Насколько я понимаю, исполнитель Python запускает рабочие процессы Python и отвечает за реализацию этого параметра. Бегун Python запускает рабочие процессы Python и продолжает проверять, превысили ли рабочие время ожидания простоя. Как только тайм-аут простоя превышен, рабочие уничтожаются. Но фабрика рабочих Python, которая создает рабочие процессы в исполнителях, имеет фиксированный тайм-аут в 60 секунд. Итак, если время простоя превышает 60 секунд, это не будет работать должным образом.

Правильно ли я понимаю ситуацию?
Если я хочу повторно использовать рабочие процессы Python после инициализации, как мне действовать?

Иллюстрация: Фабрика рабочих процессов Python
Ссылка: https://books.japila.pl/pyspark-interna ... erFactory/, https://blog.devgenius.io/apache-spark- ... 591c5f32bf
Версия Spark: 3.5.2, режим развертывания: несколько рабочих процессов в DBx, тип UDF: Pandas UDF (от итератора к итератору)
Пример кода UDF pandas (ссылка)
model_bc = spark.sparkContext.broadcast(ml_model)

@pandas_udf("long")
def infer(batches: Iterator[pd.Series]) -> Iterator[pd.Series]:
model = model_bc.value # initialize model
for plaintexts in batches:
... processing by model ...

Подробнее здесь: https://stackoverflow.com/questions/798 ... init-set-u

1768332667

Anonymous

Я пытаюсь оптимизировать выполнение UDF панд в PySpark. Когда я запускаю UDF, я выполняю некоторые дорогостоящие инициализации, например загружаю модель машинного обучения. Это разовая операция, и я не хочу делать это повторно. Я хочу повторно использовать рабочие процессы Python с инициализированной настройкой.
Для этого я увидел, что искра предоставляет конфигурацию - spark.sql.execution.pyspark.udf.idleTimeoutSeconds.
Насколько я понимаю, исполнитель Python запускает рабочие процессы Python и отвечает за реализацию этого параметра. Бегун Python запускает рабочие процессы Python и продолжает проверять, превысили ли рабочие время ожидания простоя. Как только тайм-аут простоя превышен, рабочие уничтожаются. Но фабрика рабочих Python, которая создает рабочие процессы в исполнителях, имеет фиксированный тайм-аут в 60 секунд. Итак, если время простоя превышает 60 секунд, это не будет работать должным образом.
[list]
[*]Правильно ли я понимаю ситуацию?

[*]Если я хочу повторно использовать рабочие процессы Python после инициализации, как мне действовать?

[/list]
Иллюстрация: Фабрика рабочих процессов Python
Ссылка: https://books.japila.pl/pyspark-internals/PythonWorkerFactory/, https://blog.devgenius.io/apache-spark-wtf-writing-in-pyspark-34591c5f32bf
Версия Spark: 3.5.2, режим развертывания: несколько рабочих процессов в DBx, тип UDF: Pandas UDF (от итератора к итератору)
Пример кода UDF pandas (ссылка)
model_bc = spark.sparkContext.broadcast(ml_model)

@pandas_udf("long")
def infer(batches: Iterator[pd.Series]) -> Iterator[pd.Series]:
model = model_bc.value  # initialize model
for plaintexts in batches:
... processing by model ...

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79867255/how-to-make-spark-reuse-python-workers-where-we-have-done-some-costly-init-set-u[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»