Перемешивает ли предложение BucketBy при записи кадра данных Pyspark данные? - Цифровое Кемерово

Перемешивает ли предложение BucketBy при записи кадра данных Pyspark данные? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Перемешивает ли предложение BucketBy при записи кадра данных Pyspark данные?

Цитата

Сообщение Anonymous » 04 ноя 2025, 18:59

Я пишу фрейм данных pyspark в виде таблицы в своем хранилище Spark. Я группирую его по определенному столбцу, используя предложение BucketBy, и назначаю 10 сегментов. Я читал в нескольких сообщениях в блогах, что BucketBy перемещает данные по разделам и назначает ключ на основе хэша (ключ) % num_buckets. Увидев план выполнения, я не вижу никакого этапа перемешивания. Я вижу, что исходный фрейм данных читается в 12 разделах (df.rdd.numPartitions). Вот код.

Код: Выделить всё

(
commodity_df
.write
.format("parquet")
.bucketBy(10,"State")
.sortBy("State")
.saveAsTable("taxidb.commodityTbl")
)

Прошу прощения за мое невежество и дайте мне знать, где находится пробел в моем понимании.

Подробнее здесь: https://stackoverflow.com/questions/798 ... e-the-data

1762271980

Anonymous

Я пишу фрейм данных pyspark в виде таблицы в своем хранилище Spark. Я группирую его по определенному столбцу, используя предложение BucketBy, и назначаю 10 сегментов. Я читал в нескольких сообщениях в блогах, что BucketBy перемещает данные по разделам и назначает ключ на основе хэша (ключ) % num_buckets. Увидев план выполнения, я не вижу никакого этапа перемешивания. Я вижу, что исходный фрейм данных читается в 12 разделах (df.rdd.numPartitions). Вот код.
[code](
commodity_df
.write
.format("parquet")
.bucketBy(10,"State")
.sortBy("State")
.saveAsTable("taxidb.commodityTbl")
)
[/code]
[img]https://i.sstatic.net/mGOzNpDs.png[/img]

Прошу прощения за мое невежество и дайте мне знать, где находится пробел в моем понимании. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79809124/does-bucketby-clause-while-writing-pyspark-dataframe-shuflle-the-data[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»