Как настроить расположение контента в Dataflow Apache Beam при записи CSV в облачное хранилище Google

Как настроить расположение контента в Dataflow Apache Beam при записи CSV в облачное хранилище Google ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Как настроить расположение контента в Dataflow Apache Beam при записи CSV в облачное хранилище Google

Цитата

Сообщение Anonymous » 06 дек 2024, 09:59

У меня есть конвейер потока данных в Java, который читает из bigquery, а затем сохраняет в облачное хранилище Google файл .csv.gz (в разных шардах), все работает, fileNamePolicy и процесс в целом работает .
Проблема в том, что когда кто-то загружает файлы .csv.gz из этого csv-осколка, он добавляет к имени путь к этому файлу (ищет этот файл). это нормальное поведение облачного хранилища Google по умолчанию), поэтому, например, если вы сохраните файл CSV_SHARD_1 в корзину test_bucket/dev/20241206/CSV_SHARD_1.csv.gz, а затем загрузите этот файл, он будет иметь это имя:

Код: Выделить всё

dev-20241206-CSV_SHARD_1.csv.gz

Мне нужно, чтобы имя CSV_SHARD_1.csv.gz
Я читал, как это исправить, и это можно сделать с помощью расположение содержимого (которое находится в метаданных объектов), но я не могу найти его в документации или каких-либо примерах Apache Beam, может ли кто-нибудь помочь с этим?
Я использую Apache Beam TEXTIO для написания csv, вот пример и документация: https://cloud.google.com/dataflow/docs/ ... rite-files

Подробнее здесь: https://stackoverflow.com/questions/792 ... v-to-googl

1733468385

Anonymous

У меня есть конвейер потока данных в Java, который читает из bigquery, а затем сохраняет в облачное хранилище Google файл .csv.gz (в разных шардах), все работает, fileNamePolicy и процесс в целом работает .
Проблема в том, что когда кто-то загружает файлы .csv.gz из этого csv-осколка, он добавляет к имени путь к этому файлу (ищет этот файл). это нормальное поведение облачного хранилища Google по умолчанию), поэтому, например, если вы сохраните файл CSV_SHARD_1 в корзину test_bucket/dev/20241206/CSV_SHARD_1.csv.gz, а затем загрузите этот файл, он будет иметь это имя:
[code]dev-20241206-CSV_SHARD_1.csv.gz
[/code]
Мне нужно, чтобы имя CSV_SHARD_1.csv.gz
Я читал, как это исправить, и это можно сделать с помощью расположение содержимого (которое находится в метаданных объектов), но я не могу найти его в документации или каких-либо примерах Apache Beam, может ли кто-нибудь помочь с этим?
Я использую Apache Beam TEXTIO для написания csv, вот пример и документация: https://cloud.google.com/dataflow/docs/guides/write-to-cloud-storage#write-files 

Подробнее здесь: [url]https://stackoverflow.com/questions/79257085/how-to-set-content-disposition-at-dataflow-apache-beam-when-writing-csv-to-googl[/url]

Ответить

1 сообщение • Страница 1 из 1