Pyspark с провалами агрегаций - Цифровое Кемерово

Pyspark с провалами агрегаций ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 09 июн 2025, 11:57

У меня есть 106M DataFrame с вложенными столбцами, то есть у меня есть несколько столбцов, где значения составляют {[1,2,3,4,5], , 1, 2, 3} . Я пытаюсь добавить еще несколько столбцов, используя, когда , а затем сделаю агрегацию на DataFrame.

Код: Выделить всё

df_1 = df.withColumn("newCol", when((col("colA.field") == 1) & (col("colB.field1") == 2), col("colA.field1")).otherwise("colB.field1")))\
...
df_agg = df_1.groupby("colA","colB","colC","colD").agg(count(*).alias("numRecords"),
sort_array(collected_set("colE")).alias("colE"),
sum("colE").alias("colE"),
sum("colF").alias("colF"),
sum("colG").alias("colG"),
sum("colH").alias("colH"),
min("colI").alias("colI"),
max("colJ").alias("colJ"),
countDistinct("colK").alias("colK"),
first("colL").alias("colL"),
first("colM").alias("colM"),
first("colN").alias("colN"),
first("colO").alias("colO"),
sort_array(collected_set("colP")).alias("colP"),
sort_array(collected_set("colQ")).alias("colQ"),
max("colR").alias("colR"),
max("colS").alias("colS")
)
< /code>
colL

, colm , coln , colo - строки, и они являются одинаковым значением для каждой группы, поэтому я просто хочу получить первый (или любой) экземпляр.
Я пробовал следующее (отдельно), чтобы просто сделать df_agg.show (10, druncate = false) , но всегда получили ошибку.

Код: Выделить всё

Job aborted due to stage failure: ShuffleMapStage 4 (showString at NativeMethodAccessorImpl.java:0) has failed the maximum allowable number of times: 4. Most recent failure reason:
org.apache.spark.shuffle.FetchFailedException
at org.apache.spark.errors.SparkCoreErrors$.fetchFailedError(SparkCoreErrors.scala:312)
at org.apache.spark.storage.ShuffleBlockFetcherIterator.throwFetchFailedException
at org.apache.spark.ShuffleBlockFetcherIterator.next
at org.apache.spark.ShuffleBlockFetcherIterator.next
at org.apache.spark.util.CompletionIterator.next
at scala.collection.Iterator$$anon$11.nextCur
at scala.collection.Iterator$$anon$11.nextNext
at scala.collection.Iterator$$anon$10.nextNext
...
at org.apache.spark.execution.aggregate.ObjectHashAggregateExec.$anonfun$doExecute$1
at org.apache.spark.execution.aggregate.ObjectHashAggregateExec.$anonfun$doExecute$1$adapted
...
Caused by: org.apache.spark.ExecutorDeadException: The relative remote executor(Id: 253), which maintains the block data to fetch is dead.
at org.apache.spark.network.netty.NettyBlockTransferService$$anon$2.createAndStart(NettyBlockTransferService.scala:136)
...
< /code>
[list]
[*] Запустите код pyspark на исходном раме данных, как это происходит с вложенными столбцами (паркетные файлы при 11,4 ГБ) < /li>
 Уменьшите количество записей с 106 м до 99,8 м, используя df.sample (0,943) < /code>. Ранее я успешно запустил один и тот же код на другом подобном DataFrame с 99,9 -метровыми строками (но без вложенных столбцов, а паркетные файлы были на 5,8 ГБ).
[*] Удивление схемы и только выбранные соответствующие столбцы df_flat = df.select (col ("cola.field1"). />  Напишите вышеуказанный DataFrame df_flat

в паркетные файлы, запустите новый сеанс Spark, прочитайте файлы Parquet обратно в df_flat перед шагом добавления дополнительных столбцов и агрегации. (parquet files at 4.4GB)
[/list]
I also ran df.groupBy("colA", "colB", "colC", "colD").count().orderBy(desc("count")).show(), and the largest group has 68K records, followed by 37K, 27K, 21K, 13 groups with >10K records, and many more with ~ 9K или меньше. Я думаю, что мои данные искажены? Это всего лишь небольшой тест, и мне в конечном итоге нужно будет запустить это на гораздо большем диапазоне данных, в порядке миллиардов строк.

Подробнее здесь: https://stackoverflow.com/questions/796 ... ns-failing

1749459454

Anonymous

 У меня есть 106M DataFrame с вложенными столбцами, то есть у меня есть несколько столбцов, где значения составляют {[1,2,3,4,5], , 1, 2, 3} . Я пытаюсь добавить еще несколько столбцов, используя, когда , а затем сделаю агрегацию на DataFrame. 
[code]df_1 = df.withColumn("newCol", when((col("colA.field") == 1) & (col("colB.field1") == 2), col("colA.field1")).otherwise("colB.field1")))\
...
df_agg = df_1.groupby("colA","colB","colC","colD").agg(count(*).alias("numRecords"),
sort_array(collected_set("colE")).alias("colE"),
sum("colE").alias("colE"),
sum("colF").alias("colF"),
sum("colG").alias("colG"),
sum("colH").alias("colH"),
min("colI").alias("colI"),
max("colJ").alias("colJ"),
countDistinct("colK").alias("colK"),
first("colL").alias("colL"),
first("colM").alias("colM"),
first("colN").alias("colN"),
first("colO").alias("colO"),
sort_array(collected_set("colP")).alias("colP"),
sort_array(collected_set("colQ")).alias("colQ"),
max("colR").alias("colR"),
max("colS").alias("colS")
)
< /code>
colL[/code], colm , coln , colo  - строки, и они являются одинаковым значением для каждой группы, поэтому я просто хочу получить первый (или любой) экземпляр. 
Я пробовал следующее (отдельно), чтобы просто сделать df_agg.show (10, druncate = false) , но всегда получили ошибку.[code]Job aborted due to stage failure: ShuffleMapStage 4 (showString at NativeMethodAccessorImpl.java:0) has failed the maximum allowable number of times: 4. Most recent failure reason:
org.apache.spark.shuffle.FetchFailedException
at org.apache.spark.errors.SparkCoreErrors$.fetchFailedError(SparkCoreErrors.scala:312)
at org.apache.spark.storage.ShuffleBlockFetcherIterator.throwFetchFailedException
at org.apache.spark.ShuffleBlockFetcherIterator.next
at org.apache.spark.ShuffleBlockFetcherIterator.next
at org.apache.spark.util.CompletionIterator.next
at scala.collection.Iterator$$anon$11.nextCur
at scala.collection.Iterator$$anon$11.nextNext
at scala.collection.Iterator$$anon$10.nextNext
...
at org.apache.spark.execution.aggregate.ObjectHashAggregateExec.$anonfun$doExecute$1
at org.apache.spark.execution.aggregate.ObjectHashAggregateExec.$anonfun$doExecute$1$adapted
...
Caused by: org.apache.spark.ExecutorDeadException: The relative remote executor(Id: 253), which maintains the block data to fetch is dead.
at org.apache.spark.network.netty.NettyBlockTransferService$$anon$2.createAndStart(NettyBlockTransferService.scala:136)
...
< /code>
[list]
[*] Запустите код pyspark на исходном раме данных, как это происходит с вложенными столбцами (паркетные файлы при 11,4 ГБ) < /li>
 Уменьшите количество записей с 106 м до 99,8 м, используя df.sample (0,943) < /code>. Ранее я успешно запустил один и тот же код на другом подобном DataFrame с 99,9 -метровыми строками (но без вложенных столбцов, а паркетные файлы были на 5,8 ГБ).
[*] Удивление схемы и только выбранные соответствующие столбцы df_flat = df.select (col ("cola.field1"). />  Напишите вышеуказанный DataFrame df_flat [/code] в паркетные файлы, запустите новый сеанс Spark, прочитайте файлы Parquet обратно в df_flat  перед шагом добавления дополнительных столбцов и агрегации.  (parquet files at 4.4GB)
[/list]
I also ran df.groupBy("colA", "colB", "colC", "colD").count().orderBy(desc("count")).show(), and the largest group has 68K records, followed by 37K, 27K, 21K, 13 groups with >10K records, and many more with ~ 9K или меньше. Я думаю, что мои данные искажены? Это всего лишь небольшой тест, и мне в конечном итоге нужно будет запустить это на гораздо большем диапазоне данных, в порядке миллиардов строк.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79658301/pyspark-with-aggregations-failing[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизация агрегаций Pyspark

Последнее сообщение Anonymous « 11 июн 2025, 06:15
Добавлено в форуме Python

Anonymous » 11 июн 2025, 06:15 » в форуме Python

У меня огромный флажок данных с 3B строк. Я запускаю код pyspark ниже с конфигурацией Spark.
spark = SparkSession\
.builder\
.appName( App )\
.config( spark.executor.memory , 10g )\
.config( spark.executor.cores , 4 )\
.config(...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
11 июн 2025, 06:15
Оптимизация агрегаций Pyspark

Последнее сообщение Anonymous « 11 июн 2025, 08:35
Добавлено в форуме Python

Anonymous » 11 июн 2025, 08:35 » в форуме Python

У меня огромный флажок данных с 3B строк. Я запускаю код pyspark ниже с конфигурацией Spark.
spark = SparkSession\
.builder\
.appName( App )\
.config( spark.executor.memory , 10g )\
.config( spark.executor.cores , 4 )\
.config(...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
11 июн 2025, 08:35
Оптимизация агрегаций Pyspark

Последнее сообщение Anonymous « 11 июн 2025, 23:48
Добавлено в форуме Python

Anonymous » 11 июн 2025, 23:48 » в форуме Python

У меня огромный флажок данных с 3B строк. Я запускаю код pyspark ниже с конфигурацией Spark.
spark = SparkSession\
.builder\
.appName( App )\
.config( spark.executor.memory , 10g )\
.config( spark.executor.cores , 4 )\
.config(...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
11 июн 2025, 23:48
Разное количество агрегаций для одного и того же значения

Последнее сообщение Anonymous « 13 май 2024, 17:23
Добавлено в форуме Elasticsearch aggregation

Anonymous » 13 май 2024, 17:23 » в форуме Elasticsearch aggregation

В Elasticsearch возникла проблема в запросе агрегирования. Проблема в следующем:
Я запрашиваю два разных запроса в одном запросе. Первый вариант — «покажи мне количество документов для subject.label для этих конкретных значений», а второй — «покажи...

0 Ответы

953 Просмотры

Последнее сообщение Anonymous
13 май 2024, 17:23
Ядро умирает из-за больших агрегаций наборов данных на полярах

Последнее сообщение Anonymous « 09 ноя 2024, 02:12
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 02:12 » в форуме Python

Я пытаюсь выполнить запросы, включающие агрегаты, используя поляры для больших наборов данных. Я использовал потоковую передачу = True, но ядро продолжает умирать. В чем может быть проблема? Как это исправить?
def...

0 Ответы

65 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 02:12

Вернуться в «Python»