Лучший способ вызвать ленивую оценку в Pyspark и Polars для сравнительного анализа

Лучший способ вызвать ленивую оценку в Pyspark и Polars для сравнительного анализа ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Лучший способ вызвать ленивую оценку в Pyspark и Polars для сравнительного анализа

Цитата

Сообщение Anonymous » 06 июн 2025, 09:15

В настоящее время я сравниваю Pyspark по сравнению с растущими альтернативными полярными. Я намерен использовать ленивую оценку на обоих концах, так как мой вариант использования включает в себя больше данных памяти. Проблема заключается в том, чтобы запустить план ленивого запроса, мне нужно действие, например, собирать, подсчитывать, писать и т. Д. До сих пор я выполнял все свои тестовые примеры, используя .collect () для pyspark и .collect (engine = "потоковая передача") для поляров. Я прочитал в документации Pyspark, что функция collect () неэффективна для более крупных выходов данных, поскольку она загружает все в память. Мне нужен «справедливый» способ запустить выполнение запроса, которое не будет невыгодным ни для одной из структур, и обеспечить близкие к результатам реальности. Должен ли я прямо использовать write (), чтобы быть самым близким к реальным вариантам использования или есть лучший способ?

Подробнее здесь: https://stackoverflow.com/questions/796 ... nchmarking

1749190543

Anonymous

 В настоящее время я сравниваю Pyspark по сравнению с растущими альтернативными полярными. Я намерен использовать ленивую оценку на обоих концах, так как мой вариант использования включает в себя больше данных памяти. Проблема заключается в том, чтобы запустить план ленивого запроса, мне нужно действие, например, собирать, подсчитывать, писать и т. Д. До сих пор я выполнял все свои тестовые примеры, используя .collect () для pyspark и .collect (engine = "потоковая передача") для поляров. Я прочитал в документации Pyspark, что функция collect () неэффективна для более крупных выходов данных, поскольку она загружает все в память. Мне нужен «справедливый» способ запустить выполнение запроса, которое не будет невыгодным ни для одной из структур, и обеспечить близкие к результатам реальности. Должен ли я прямо использовать write (), чтобы быть самым близким к реальным вариантам использования или есть лучший способ?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79655254/best-way-to-trigger-lazy-evaluation-in-pyspark-and-polars-for-benchmarking[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Лучший способ вызвать ленивую оценку в Pyspark и Polars для сравнительного анализа

Последнее сообщение Anonymous « 06 июн 2025, 01:21
Добавлено в форуме Python

Anonymous » 06 июн 2025, 01:21 » в форуме Python

В настоящее время я сравниваю Pyspark по сравнению с растущими альтернативными полярными. Я намерен использовать ленивую оценку на обоих концах, так как мой вариант использования включает в себя больше данных памяти. Проблема заключается в том,...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
06 июн 2025, 01:21
Реализация и оптимизация развернутых связанных списков в C ++ для сравнительного анализа [закрыто]

Последнее сообщение Anonymous « 24 апр 2025, 01:57
Добавлено в форуме C++

Anonymous » 24 апр 2025, 01:57 » в форуме C++

Я работаю над проектом по сравнению с производительностью различных реализаций списков в C ++ (например, std :: list , std :: vector , возможно, другие) против пользовательской реализации. Я особенно заинтересован в том, чтобы реализовать...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
24 апр 2025, 01:57
Как реализовать ленивую инициализацию поля содержимого в объекте сущности?

Последнее сообщение Anonymous « 03 ноя 2024, 23:07
Добавлено в форуме JAVA

Anonymous » 03 ноя 2024, 23:07 » в форуме JAVA

У меня есть две сущности: Пользователь и Сообщение (отношение один-ко-многим). Поля сообщения: id, дата создания, заголовок, контент, пользователь.
Данные хранится в базе данных и доступен через Hibernate.
У меня есть контроллер для передачи объекта...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 23:07
Можно ли сделать ленивую группу из уже сортируемого потока, возвращая поток в Java 8?

Последнее сообщение Anonymous « 26 фев 2025, 03:01
Добавлено в форуме JAVA

Anonymous » 26 фев 2025, 03:01 » в форуме JAVA

У меня есть несколько крупных текстовых файлов, которые я хочу обработать, группируя его строки.
Я попытался использовать новые потоковые функции, такие как
return FileUtils.readLines(...)
.parallelStream()
.map(...)
.collect(groupingBy(pair ->...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
26 фев 2025, 03:01
Как инициализировать ленивую загруженную коллекцию за пределами транзакции, которую она была извлечена правильно?

Последнее сообщение Anonymous « 19 июн 2025, 16:39
Добавлено в форуме JAVA

Anonymous » 19 июн 2025, 16:39 » в форуме JAVA

У меня приложение для пружинной загрузки, которое использует Hibernate в качестве структуры ORM и DGS в качестве двигателя GraphQL. Я боролся с поиском способов инициализации ленивой нагруженной коллекции, правильного пути. У меня следующий...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
19 июн 2025, 16:39

Вернуться в «Python»