Могу ли я использовать многопоточность внутри pyspark mapPartitions? - Цифровое Кемерово

Могу ли я использовать многопоточность внутри pyspark mapPartitions? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Могу ли я использовать многопоточность внутри pyspark mapPartitions?

Цитата

Сообщение Anonymous » 18 фев 2026, 11:45

Могу ли я использовать многопоточность внутри pyspark MapPartitions?
Я запускаю задание Spark, в котором мне приходится выполнять вызовы API для каждой строки. Мы используем карту rdd для запуска функции Python для выполнения вызовов API. Эти вызовы API занимают 0,01–0,5 секунды.
Можем ли мы использовать rdd MapParitions для запуска многопоточной функции Python? Каковы последствия или почему мы не можем использовать многопоточность?

Примечание. Мы понимаем, что Spark, возможно, не лучший инструмент для этой работы. Кроме того, мы не можем использовать Pandas udf или векторизацию из-за зависимостей PyArrow.
Источник изображения: https://medium.com/ibm-data-science-exp ... 4c98526784 (не имеет отношения к этому вопросу)

Подробнее здесь: https://stackoverflow.com/questions/639 ... partitions

1771404320

Anonymous

Могу ли я использовать многопоточность внутри pyspark MapPartitions?
Я запускаю задание Spark, в котором мне приходится выполнять вызовы API для каждой строки. Мы используем карту rdd для запуска функции Python для выполнения вызовов API. Эти вызовы API занимают 0,01–0,5 секунды.
Можем ли мы использовать rdd MapParitions для запуска многопоточной функции Python? Каковы последствия или почему мы не можем использовать многопоточность?
[img]https://miro.medium.com/max/700/1*gksitARscX4pPDAqF192aA.png[/img]

Примечание. Мы понимаем, что Spark, возможно, не лучший инструмент для этой работы. Кроме того, мы не можем использовать Pandas udf или векторизацию из-за зависимостей PyArrow.
Источник изображения: https://medium.com/ibm-data-science-experience/using-spark-as-a-parallel-processing-framework-for-accessing-rest-based-data-services-cd4c98526784 (не имеет отношения к этому вопросу) 

Подробнее здесь: [url]https://stackoverflow.com/questions/63924931/can-i-use-multi-threading-inside-pyspark-mappartitions[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»