Я запускаю задание Spark, в котором мне приходится выполнять вызовы API для каждой строки. Мы используем карту rdd для запуска функции Python для выполнения вызовов API. Эти вызовы API занимают 0,01–0,5 секунды.
Можем ли мы использовать rdd MapParitions для запуска многопоточной функции Python? Каковы последствия или почему мы не можем использовать многопоточность?

Примечание. Мы понимаем, что Spark, возможно, не лучший инструмент для этой работы. Кроме того, мы не можем использовать Pandas udf или векторизацию из-за зависимостей PyArrow.
Источник изображения: https://medium.com/ibm-data-science-exp ... 4c98526784 (не имеет отношения к этому вопросу)
Подробнее здесь: https://stackoverflow.com/questions/639 ... partitions
Мобильная версия