Оптимизация агрегаций Pyspark - Цифровое Кемерово

Оптимизация агрегаций Pyspark ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Оптимизация агрегаций Pyspark

Цитата

Сообщение Anonymous » 11 июн 2025, 23:48

У меня огромный флажок данных с 3B строк. Я запускаю код pyspark ниже с конфигурацией Spark. < /P>

Код: Выделить всё

spark = SparkSession\
.builder\
.appName("App")\
.config("spark.executor.memory","10g")\
.config("spark.executor.cores","4")\
.config("spark.executor.instances","6")\
.config("spark.sql.adaptive.enabled","true")\
.config("spark.dynamicAllocation.enabled","false")\
.enableHiveSupport()\
.getOrCreate()

df = spark.read.parquet("/data")
df = df.filter(col("colA").isNotNull() & col("colB").isNotNull())
df = df.withColumn("colK_udf",udf_function("colK"))

df_1 = df.withColumn("newCol", when((col("colA.field") == 1) & (col("colB.field1") == 2), col("colA.field1")).otherwise("colB.field1")))\
...
df_1 = df1.select(...)

df_agg = df_1.groupby("colA","colB","colC","colD").agg(count(*).alias("numRecords"),
sort_array(collected_set("colE")).alias("colE"),
sum("colF").alias("colF"),
sum("colG").alias("colG"),
sum("colH").alias("colH"),
sum("colL").alias("colL"),
min("colI").alias("colI"),
max("colJ").alias("colJ"),
countDistinct("colE").alias("colE"),
sort_array(collected_set("colP")).alias("colP"),
sort_array(collected_set("colQ")).alias("colQ"),
max("colR").alias("colR"),
max("colS").alias("colS")
)
df_agg.count()
< /code>
Я попробовал код на меньшем данных о данных с строками всего 100 м, и он работал. Однако, когда я запустил его на DataFrame с 3B строками, я получаю ошибку ниже при выполнении последнего df_agg.count ()

Код: Выделить всё

ERROR org.apache.spark.scheduler.TaskSchedulerImpl - Lost executor 1 on 2.2.2.2:
...
The API gave the following message: Pod ephemeral local storage usage exceeds the total limit of containers 50Gi.
< /code>
Я уже увеличил локальное использование POD с 30 ГБ до 50 ГБ, но я не могу увеличить его на неопределенный срок. Я буду продолжать получать это сообщение для других исполнителей, и количество неудачных задач просто продолжает расти. Когда я просто позволяю программе запускать часы, вход

поднимался до 350 ГБ, а Shuffle write до 480 ГБ, прежде чем я его убил. Выберите , но это не решило проблему.
Что еще я могу попробовать?

Подробнее здесь: https://stackoverflow.com/questions/796 ... timization

1749674893

Anonymous

 У меня огромный флажок данных с 3B строк. Я запускаю код pyspark ниже с конфигурацией Spark. < /P>
[code]spark = SparkSession\
.builder\
.appName("App")\
.config("spark.executor.memory","10g")\
.config("spark.executor.cores","4")\
.config("spark.executor.instances","6")\
.config("spark.sql.adaptive.enabled","true")\
.config("spark.dynamicAllocation.enabled","false")\
.enableHiveSupport()\
.getOrCreate()

df = spark.read.parquet("/data")
df = df.filter(col("colA").isNotNull() & col("colB").isNotNull())
df = df.withColumn("colK_udf",udf_function("colK"))

df_1 = df.withColumn("newCol", when((col("colA.field") == 1) & (col("colB.field1") == 2), col("colA.field1")).otherwise("colB.field1")))\
...
df_1 = df1.select(...)

df_agg = df_1.groupby("colA","colB","colC","colD").agg(count(*).alias("numRecords"),
sort_array(collected_set("colE")).alias("colE"),
sum("colF").alias("colF"),
sum("colG").alias("colG"),
sum("colH").alias("colH"),
sum("colL").alias("colL"),
min("colI").alias("colI"),
max("colJ").alias("colJ"),
countDistinct("colE").alias("colE"),
sort_array(collected_set("colP")).alias("colP"),
sort_array(collected_set("colQ")).alias("colQ"),
max("colR").alias("colR"),
max("colS").alias("colS")
)
df_agg.count()
< /code>
Я попробовал код на меньшем данных о данных с строками всего 100 м, и он работал. Однако, когда я запустил его на DataFrame с 3B строками, я получаю ошибку ниже при выполнении последнего df_agg.count () [/code]. 
[code]ERROR org.apache.spark.scheduler.TaskSchedulerImpl - Lost executor 1 on 2.2.2.2:
...
The API gave the following message: Pod ephemeral local storage usage exceeds the total limit of containers 50Gi.
< /code>
Я уже увеличил локальное использование POD с 30 ГБ до 50 ГБ, но я не могу увеличить его на неопределенный срок. Я буду продолжать получать это сообщение для других исполнителей, и количество неудачных задач просто продолжает расти. Когда я просто позволяю программе запускать часы, вход [/code] поднимался до 350 ГБ, а Shuffle write  до 480 ГБ, прежде чем я его убил. Выберите , но это не решило проблему. 
Что еще я могу попробовать?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79661339/pyspark-aggregations-optimization[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизация агрегаций Pyspark

Последнее сообщение Anonymous « 11 июн 2025, 06:15
Добавлено в форуме Python

Anonymous » 11 июн 2025, 06:15 » в форуме Python

У меня огромный флажок данных с 3B строк. Я запускаю код pyspark ниже с конфигурацией Spark.
spark = SparkSession\
.builder\
.appName( App )\
.config( spark.executor.memory , 10g )\
.config( spark.executor.cores , 4 )\
.config(...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
11 июн 2025, 06:15
Оптимизация агрегаций Pyspark

Последнее сообщение Anonymous « 11 июн 2025, 08:35
Добавлено в форуме Python

Anonymous » 11 июн 2025, 08:35 » в форуме Python

У меня огромный флажок данных с 3B строк. Я запускаю код pyspark ниже с конфигурацией Spark.
spark = SparkSession\
.builder\
.appName( App )\
.config( spark.executor.memory , 10g )\
.config( spark.executor.cores , 4 )\
.config(...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
11 июн 2025, 08:35
Оптимизация агрегаций окон: выталкивание выражений на элемент из окна агрегации

Последнее сообщение Anonymous « 04 фев 2025, 22:39
Добавлено в форуме Python

Anonymous » 04 фев 2025, 22:39 » в форуме Python

Я хочу понять последствия производительности элементных преобразований на агрегации с холмистом окна. Рассмотрим следующие две версии агрегации прокатки (из плавающих значений):
i)
X = frame.rolling(index_column= date , group_by= group , period=...

0 Ответы

65 Просмотры

Последнее сообщение Anonymous
04 фев 2025, 22:39
Pyspark с провалами агрегаций

Последнее сообщение Anonymous « 09 июн 2025, 11:57
Добавлено в форуме Python

Anonymous » 09 июн 2025, 11:57 » в форуме Python

У меня есть 106M DataFrame с вложенными столбцами, то есть у меня есть несколько столбцов, где значения составляют { , , 1, 2, 3} . Я пытаюсь добавить еще несколько столбцов, используя, когда , а затем сделаю агрегацию на DataFrame.
df_1 =...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
09 июн 2025, 11:57
Разное количество агрегаций для одного и того же значения

Последнее сообщение Anonymous « 13 май 2024, 17:23
Добавлено в форуме Elasticsearch aggregation

Anonymous » 13 май 2024, 17:23 » в форуме Elasticsearch aggregation

В Elasticsearch возникла проблема в запросе агрегирования. Проблема в следующем:
Я запрашиваю два разных запроса в одном запросе. Первый вариант — «покажи мне количество документов для subject.label для этих конкретных значений», а второй — «покажи...

0 Ответы

944 Просмотры

Последнее сообщение Anonymous
13 май 2024, 17:23

Вернуться в «Python»