Перемешивает ли предложение BucketBy при записи кадра данных Pyspark данные?Python

Программы на Python
Ответить
Anonymous
 Перемешивает ли предложение BucketBy при записи кадра данных Pyspark данные?

Сообщение Anonymous »

Я пишу фрейм данных pyspark в виде таблицы в своем хранилище Spark. Я группирую его по определенному столбцу, используя предложение BucketBy, и назначаю 10 сегментов. Я читал в нескольких сообщениях в блогах, что BucketBy перемещает данные по разделам и назначает ключ на основе хэша (ключ) % num_buckets. Увидев план выполнения, я не вижу никакого этапа перемешивания. Я вижу, что исходный фрейм данных читается в 12 разделах (df.rdd.numPartitions). Вот код.

Код: Выделить всё

(
commodity_df
.write
.format("parquet")
.bucketBy(10,"State")
.sortBy("State")
.saveAsTable("taxidb.commodityTbl")
)
Изображение

Прошу прощения за мое невежество и дайте мне знать, где находится пробел в моем понимании.

Подробнее здесь: https://stackoverflow.com/questions/798 ... e-the-data
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»