Как скопировать файлы и папки в HDFS с помощью Pyspark

Как скопировать файлы и папки в HDFS с помощью Pyspark ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как скопировать файлы и папки в HDFS с помощью Pyspark

Цитата

Сообщение Anonymous » 29 окт 2024, 21:33

У меня такая структура папок в HDFS

Код: Выделить всё

/user/test/data/data_backlog

Внутри data_backlog у меня есть папки с датами, как показано ниже

Код: Выделить всё

   dt=2023.01.01
part1.avro
part2.avro
dt=2023.01.02
part1.avro
part2.avro

Мне нужно скопировать файлы, сохранив ту же структуру папок, в другой путь

Код: Выделить всё

/user/test/data/data_backlog_backup

Это мой нынешний код:

Код: Выделить всё

# get directory list to be moved
directories = get_list_path(end_date, lake.listStatus(spark._jvm.org.apache.hadoop.fs.Path('/user/test/data/data_backlog')),False)

for _par in directories:
df_bkp = spark.read.format('avro').load(_par)
DataIO.write(df_bkp.coalesce(5), "data_backlog", "overwrite")
lake.Delete(fs.Path(_par), True)

Это задание выполняется, но при этом все файлы перемещаются в родительскую папку без создания подпапок с датами.
Как сохранить ту же структуру папок в пути назначения
п>

Подробнее здесь: https://stackoverflow.com/questions/791 ... ng-pyspark

1730226790

Anonymous

У меня такая структура папок в HDFS
[code]/user/test/data/data_backlog[/code]
Внутри data_backlog у меня есть папки с датами, как показано ниже
[code]   dt=2023.01.01
part1.avro
part2.avro
dt=2023.01.02
part1.avro
part2.avro
[/code]
Мне нужно скопировать файлы, сохранив ту же структуру папок, в другой путь
[code]/user/test/data/data_backlog_backup[/code]
Это мой нынешний код:
[code]# get directory list to be moved
directories = get_list_path(end_date, lake.listStatus(spark._jvm.org.apache.hadoop.fs.Path('/user/test/data/data_backlog')),False)

for _par in directories:
df_bkp = spark.read.format('avro').load(_par)
DataIO.write(df_bkp.coalesce(5), "data_backlog", "overwrite")
lake.Delete(fs.Path(_par), True)
[/code]
Это задание выполняется, но при этом все файлы перемещаются в родительскую папку без создания подпапок с датами.
Как сохранить ту же структуру папок в пути назначения
п> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79133564/how-to-copy-files-and-folders-in-hdfs-using-pyspark[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как скопировать файлы и папки в HDFS с помощью Pyspark

Последнее сообщение Anonymous « 28 окт 2024, 16:14
Добавлено в форуме Python

Anonymous » 28 окт 2024, 16:14 » в форуме Python

У меня такая структура папок в HDFS
/user/test/data/data_backlog
Внутри data_backlog у меня есть папки с датами, как показано ниже
dt=2023.01.01
part1.avro
part2.avro
dt=2023.01.02
part1.avro
part2.avro

Мне нужно скопировать файлы, сохранив ту...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
28 окт 2024, 16:14
Загрузка набора данных Ray HDFS: не удалось закрыть HdfsReadableFile: IOError: Ошибка закрытия HDFS. Подробности: [errno

Последнее сообщение Anonymous « 07 дек 2023, 06:07
Добавлено в форуме JAVA

Anonymous » 07 дек 2023, 06:07 » в форуме JAVA

Я использую паркеты чтения Ray Dataset в кластере HDFS.

импортировать луч test_dataset = ray.data.read_parquet('hdfs://hadoop@192.168.222.236:9000/path/to/file.parquet') test_dataset.take(1) При чтении паркетов кластер Ray выдает следующие...

0 Ответы

58 Просмотры

Последнее сообщение Anonymous
07 дек 2023, 06:07
Я пытаюсь получить файл из hdfs, но он показывает pyspark.errors.Exceptions.capture: [PATH_NOT_FOUND] Путь не существует

Последнее сообщение Anonymous « 03 янв 2024, 15:35
Добавлено в форуме Python

Anonymous » 03 янв 2024, 15:35 » в форуме Python

@app.route('/upload', методы= ) защита загрузки(): глобальный загруженный_df, имя_загруженного_файла если «csv_file» в request.files: csv_file = request.files если csv_file.имя_файла != '': пытаться: загруженное_имя_файла = csv_file.имя_файла...

0 Ответы

58 Просмотры

Последнее сообщение Anonymous
03 янв 2024, 15:35
Я пытаюсь получить файл из hdfs, но он показывает pyspark.errors.Exceptions.capture: [PATH_NOT_FOUND] Путь не существует

Последнее сообщение Anonymous « 03 янв 2024, 18:35
Добавлено в форуме Python

Anonymous » 03 янв 2024, 18:35 » в форуме Python

@app.route('/upload', методы= ) защита загрузки(): глобальный загруженный_df, имя_загруженного_файла если «csv_file» в request.files: csv_file = request.files если csv_file.имя_файла != '': пытаться: загруженное_имя_файла = csv_file.имя_файла...

0 Ответы

51 Просмотры

Последнее сообщение Anonymous
03 янв 2024, 18:35
Извлеките содержимое конкретного файла при использовании пути папки / файла HDFS

Последнее сообщение Anonymous « 06 авг 2025, 12:57
Добавлено в форуме Linux

Anonymous » 06 авг 2025, 12:57 » в форуме Linux

Я пытаюсь получить доступ к конкретному содержанию файла журнала (или любой файл (или любой файл), используя HDFS fs -ls

Я вижу количество файлов в папке при использовании CMD для папки ...
hadoop hdfs fs -ls
выводит вывод 142 файлов,...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
06 авг 2025, 12:57

Вернуться в «Python»