Могу ли я использовать многопоточность внутри pyspark mapPartitions?Python

Программы на Python
Ответить
Anonymous
 Могу ли я использовать многопоточность внутри pyspark mapPartitions?

Сообщение Anonymous »

Могу ли я использовать многопоточность внутри pyspark MapPartitions?
Я запускаю задание Spark, в котором мне приходится выполнять вызовы API для каждой строки. Мы используем карту rdd для запуска функции Python для выполнения вызовов API. Эти вызовы API занимают 0,01–0,5 секунды.
Можем ли мы использовать rdd MapParitions для запуска многопоточной функции Python? Каковы последствия или почему мы не можем использовать многопоточность?
Изображение

Примечание. Мы понимаем, что Spark, возможно, не лучший инструмент для этой работы. Кроме того, мы не можем использовать Pandas udf или векторизацию из-за зависимостей PyArrow.
Источник изображения: https://medium.com/ibm-data-science-exp ... 4c98526784 (не имеет отношения к этому вопросу)

Подробнее здесь: https://stackoverflow.com/questions/639 ... partitions
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»