Работа склеивания Aws выполняется очень медленно при записи в s3 с использованием записи pysparkPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Работа склеивания Aws выполняется очень медленно при записи в s3 с использованием записи pyspark

Сообщение Anonymous »

У меня есть задание Glue, которое имеет приведенную ниже конфигурацию и записывает файл в s3 с помощью spark.write, а процесс записи требует времени для записи файла размером 544 * 7,5 МБ. Использование Coalesce(16) генерирует 16 файлов по 2,5 ГБ, и это не особо помогает.
Конфигурация склейки:
  • тип рабочего: G1 X
  • максимальное количество рабочих: 10
  • клей версии 5.0
Это задание в основном выбирает данные из athena разделяет таблицу и, наконец, записывает данные в файл s3. Запись файла s3 занимает много времени.
select_query = (

f"SELECT * FROM table1 "
f"WHERE year='{year}' AND month='{month}' AND day='{day}' AND hour='{hour}' AND col1 ='abc' "
f"AND col2='123' AND col3 in ('ABC12','CDE23','DEF34','GHI23', "

) AND col4='NEW' "
f"AND key IN ('val1', 'val2')"
)

data_df = spark.sql(select_query )
data_df.write.mode("append").parquet(athena_output_location)


Подробнее здесь: https://stackoverflow.com/questions/793 ... park-write
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Запрос выполняется очень медленно при запуске на SQL Server 2022 по сравнению с Azure Data Studio.
    Anonymous » » в форуме Php
    0 Ответы
    16 Просмотры
    Последнее сообщение Anonymous
  • Docker – установка python-pip на php-fpm-alpine выполняется очень медленно
    Anonymous » » в форуме Python
    0 Ответы
    36 Просмотры
    Последнее сообщение Anonymous
  • Docker – установка python-pip на php-fpm-alpine выполняется очень медленно
    Anonymous » » в форуме Linux
    0 Ответы
    25 Просмотры
    Последнее сообщение Anonymous
  • Pylance очень медленно в Vscode при использовании AWS CDK
    Anonymous » » в форуме Python
    0 Ответы
    9 Просмотры
    Последнее сообщение Anonymous
  • Pylance очень медленно в Vscode при использовании AWS CDK
    Anonymous » » в форуме Python
    0 Ответы
    9 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»