Работа склеивания Aws выполняется очень медленно при записи в s3 с использованием записи pysparkPython

Программы на Python
Ответить
Anonymous
 Работа склеивания Aws выполняется очень медленно при записи в s3 с использованием записи pyspark

Сообщение Anonymous »

У меня есть задание Glue, которое имеет приведенную ниже конфигурацию и записывает файл в s3 с помощью spark.write, а процесс записи требует времени для записи файла размером 544 * 7,5 МБ. Использование Coalesce(16) генерирует 16 файлов по 2,5 ГБ, и это не особо помогает.
Конфигурация склейки:
  • тип рабочего: G1 X
  • максимальное количество рабочих: 10
  • клей версии 5.0
Это задание в основном выбирает данные из athena разделяет таблицу и, наконец, записывает данные в файл s3. Запись файла s3 занимает много времени.
select_query = (

f"SELECT * FROM table1 "
f"WHERE year='{year}' AND month='{month}' AND day='{day}' AND hour='{hour}' AND col1 ='abc' "
f"AND col2='123' AND col3 in ('ABC12','CDE23','DEF34','GHI23', "

) AND col4='NEW' "
f"AND key IN ('val1', 'val2')"
)

data_df = spark.sql(select_query )
data_df.write.mode("append").parquet(athena_output_location)


Подробнее здесь: https://stackoverflow.com/questions/793 ... park-write
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»