Лучший способ вызвать ленивую оценку в Pyspark и Polars для сравнительного анализаPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Лучший способ вызвать ленивую оценку в Pyspark и Polars для сравнительного анализа

Сообщение Anonymous »

В настоящее время я сравниваю Pyspark по сравнению с растущими альтернативными полярными. Я намерен использовать ленивую оценку на обоих концах, так как мой вариант использования включает в себя больше данных памяти. Проблема заключается в том, чтобы запустить план ленивого запроса, мне нужно действие, например, собирать, подсчитывать, писать и т. Д. До сих пор я выполнял все свои тестовые примеры, используя .collect () для pyspark и .collect (engine = "потоковая передача") для поляров. Я прочитал в документации Pyspark, что функция collect () неэффективна для более крупных выходов данных, поскольку она загружает все в память. Мне нужен «справедливый» способ запустить выполнение запроса, которое не будет невыгодным ни для одной из структур, и обеспечить близкие к результатам реальности. Должен ли я прямо использовать write (), чтобы быть самым близким к реальным вариантам использования или есть лучший способ?

Подробнее здесь: https://stackoverflow.com/questions/796 ... nchmarking
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»