В настоящее время я сравниваю Pyspark по сравнению с растущими альтернативными полярными. Я намерен использовать ленивую оценку на обоих концах, так как мой вариант использования включает в себя больше данных памяти. Проблема заключается в том, чтобы запустить план ленивого запроса, мне нужно действие, например, собирать, подсчитывать, писать и т. Д. До сих пор я выполнял все свои тестовые примеры, используя .collect () для pyspark и .collect (engine = "потоковая передача") для поляров. Я прочитал в документации Pyspark, что функция collect () неэффективна для более крупных выходов данных, поскольку она загружает все в память. Мне нужен «справедливый» способ запустить выполнение запроса, которое не будет невыгодным ни для одной из структур, и обеспечить близкие к результатам реальности. Должен ли я прямо использовать write (), чтобы быть самым близким к реальным вариантам использования или есть лучший способ?
Подробнее здесь: https://stackoverflow.com/questions/796 ... nchmarking
Лучший способ вызвать ленивую оценку в Pyspark и Polars для сравнительного анализа ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Лучший способ вызвать ленивую оценку в Pyspark и Polars для сравнительного анализа
Anonymous » » в форуме Python - 0 Ответы
- 2 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как реализовать ленивую инициализацию поля содержимого в объекте сущности?
Anonymous » » в форуме JAVA - 0 Ответы
- 7 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Можно ли сделать ленивую группу из уже сортируемого потока, возвращая поток в Java 8?
Anonymous » » в форуме JAVA - 0 Ответы
- 17 Просмотры
-
Последнее сообщение Anonymous
-