Оптимизируйте код PySpark для большого фрейма данных, который превышает ресурсы кластера.

Оптимизируйте код PySpark для большого фрейма данных, который превышает ресурсы кластера. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Оптимизируйте код PySpark для большого фрейма данных, который превышает ресурсы кластера.

Цитата

Сообщение Anonymous » 27 ноя 2024, 18:03

У меня есть большой фрейм данных PySpark, содержащий 250 миллионов строк и всего 2 столбца. Я использую код minHash, найденный здесь. Я попытался записать полученный фрейм данных в файлы паркета с помощью adj_sdf.write.mode("append").parquet("/output/folder/"). Однако я продолжал получать сообщение об ошибке: использование эфемерного локального хранилища модуля превышает общий лимит контейнеров. Я не могу увеличить ресурсы кластера, поэтому мне интересно, есть ли способы вместо этого оптимизировать код PySpark.
На данный момент я сделал следующее:

Разбейте кадр данных перед запуском функции minHash: sdf = sdf.repartition(200)
Отфильтруйте пары, которые вряд ли поделятся большим количеством хеша значения перед последним шагом, который включает в себя два соединения (
Код: Выделить всё
```
hash_sdf.alias('a').join(...)):
filtered_sdf = hash_sdf.filter(f.size(f.col('nodeSet')) > threshold)
```
, где порог = int(0,2 * n_draws)
Установите количество разделов в случайном порядке: spark.conf.set("spark.sql.shuffle.partitions ", "200")

Что еще я могу сделать, чтобы записать фрейм данных в файлы паркета, не столкнувшись с проблемами с ресурсами?

Подробнее здесь: https://stackoverflow.com/questions/792 ... -resources

1732719807

Anonymous

У меня есть большой фрейм данных PySpark, содержащий 250 миллионов строк и всего 2 столбца. Я использую код minHash, найденный здесь. Я попытался записать полученный фрейм данных в файлы паркета с помощью adj_sdf.write.mode("append").parquet("/output/folder/"). Однако я продолжал получать сообщение об ошибке: использование эфемерного локального хранилища модуля превышает общий лимит контейнеров. Я не могу увеличить ресурсы кластера, поэтому мне интересно, есть ли способы вместо этого оптимизировать код PySpark.
На данный момент я сделал следующее:
[list]
[*]Разбейте кадр данных перед запуском функции minHash: sdf = sdf.repartition(200)
[*]Отфильтруйте пары, которые вряд ли поделятся большим количеством хеша значения перед последним шагом, который включает в себя два соединения ([code]hash_sdf.alias('a').join(...)):
filtered_sdf = hash_sdf.filter(f.size(f.col('nodeSet')) > threshold)[/code], где порог = int(0,2 * n_draws)
[*]Установите количество разделов в случайном порядке: spark.conf.set("spark.sql.shuffle.partitions ", "200")
[/list]
Что еще я могу сделать, чтобы записать фрейм данных в файлы паркета, не столкнувшись с проблемами с ресурсами? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79229678/optimize-pyspark-code-on-large-dataframe-that-exceeds-cluster-resources[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизируйте код PySpark для большого фрейма данных, который превышает ресурсы кластера.

Последнее сообщение Anonymous « 27 ноя 2024, 12:39
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 12:39 » в форуме Python

У меня есть большой фрейм данных PySpark, содержащий 250 миллионов строк и всего 2 столбца. Я использую код minHash, найденный здесь. Я попытался записать полученный фрейм данных в файлы паркета с помощью adj_sdf.write.mode( append ).parquet(...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 12:39
Оптимизируйте код Python, чтобы удалить слова из очень большого отдела обработки данных

Последнее сообщение Anonymous « 26 янв 2025, 11:13
Добавлено в форуме Python

Anonymous » 26 янв 2025, 11:13 » в форуме Python

Моя цель - удалить редкие слова из DataFrame от размера 3 миллиона. Ниже код занимает очень много времени. Есть ли способ, который я могу его оптимизировать?
rare_word=[]
for k,v in frequency_word.items():
if v

Подробнее здесь:

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 янв 2025, 11:13
Оптимизируйте процесс обработки файлов, размер которых превышает объем памяти, с помощью Python (Pandas).

Последнее сообщение Anonymous « 03 янв 2025, 12:35
Добавлено в форуме Python

Anonymous » 03 янв 2025, 12:35 » в форуме Python

Я храню цены на акции для разных организаций в виде отдельных файлов перьев в корзине S3. На высоком уровне содержимое любого файла перьев выглядит так, как показано ниже.
month | value | observation |
-----------------------------
2024-01 | 12 |...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 12:35
Оптимизируйте процесс обработки файлов, размер которых превышает объем памяти, с помощью Python (Pandas).

Последнее сообщение Anonymous « 03 янв 2025, 13:20
Добавлено в форуме Python

Anonymous » 03 янв 2025, 13:20 » в форуме Python

Я храню цены на акции для разных организаций в виде отдельных файлов перьев в корзине S3. На высоком уровне содержимое любого файла перьев выглядит так, как показано ниже.
month | value | observation |
-----------------------------
2024-01 | 12 |...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 13:20
Оптимизируйте процесс обработки файлов, размер которых превышает объем памяти, с помощью Python (Pandas).

Последнее сообщение Anonymous « 06 янв 2025, 20:43
Добавлено в форуме Python

Anonymous » 06 янв 2025, 20:43 » в форуме Python

Я храню цены на акции для разных организаций в виде отдельных файлов перьев в корзине S3. На высоком уровне содержимое любого файла перьев выглядит так, как показано ниже.
month | value | observation |
-----------------------------
2024-01 | 12 |...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
06 янв 2025, 20:43

Вернуться в «Python»