Как скопировать файлы и папки в HDFS с помощью PysparkPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как скопировать файлы и папки в HDFS с помощью Pyspark

Сообщение Anonymous »

У меня такая структура папок в HDFS

Код: Выделить всё

/user/test/data/data_backlog
Внутри data_backlog у меня есть папки с датами, как показано ниже

Код: Выделить всё

   dt=2023.01.01
part1.avro
part2.avro
dt=2023.01.02
part1.avro
part2.avro
Мне нужно скопировать файлы, сохранив ту же структуру папок, в другой путь

Код: Выделить всё

/user/test/data/data_backlog_backup
Это мой нынешний код:

Код: Выделить всё

# get directory list to be moved
directories = get_list_path(end_date, lake.listStatus(spark._jvm.org.apache.hadoop.fs.Path('/user/test/data/data_backlog')),False)

for _par in directories:
df_bkp = spark.read.format('avro').load(_par)
DataIO.write(df_bkp.coalesce(5), "data_backlog", "overwrite")
lake.Delete(fs.Path(_par), True)
Это задание выполняется, но при этом все файлы перемещаются в родительскую папку без создания подпапок с датами.
Как сохранить ту же структуру папок в пути назначения
п>

Подробнее здесь: https://stackoverflow.com/questions/791 ... ng-pyspark
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»