У меня есть конвейер Apache Beam (работающий на Dataflow), который обычно выполняет ежедневную пакетную загрузку из Cloud Storage в BigQuery. Исходная группа предоставила исторические данные за 1 год, которые необходимо заполнить обратно.
Объем: ~365 дней данных.
Файлов в день: Несколько файлов данных плюс файлы метаданных/поиска.
Размер файла: Файлы данных ~1 ГБ каждый (отдельный несжатый файл), предоставляется в формате .txt.gz.
Соглашение об именовании: * Данные: [index]_[ГГГГ-ММ-ДД]_abc.txt.gz (например, 01_2026-01-01_abc.txt.gz)
Поиск/метаданные: abc_[ГГГГ-ММ-ДД]-lookup_data.tar.gz и abc_[ГГГГ-ММ-ДД].txt
Примечание:
Я делаю довольно большие преобразования внутри потока лучей. Вопросы:
Лучше ли запускать одно массовое задание на весь год или зацикливать выполнение конвейера на месяц/день с помощью сценария CI/CD?
Есть ли какие-то конкретные Конфигурации TextIO или FileIO в Java SDK для лучшей обработки большого количества неразбиваемых сжатых файлов?
У меня есть конвейер Apache Beam (работающий на Dataflow), который обычно выполняет ежедневную пакетную загрузку из Cloud Storage в BigQuery. Исходная группа предоставила исторические данные за 1 год, которые необходимо заполнить обратно. [list] [*][b]Объем:[/b] ~365 дней данных.
[*][b]Файлов в день:[/b] Несколько файлов данных плюс файлы метаданных/поиска.
[*][b]Размер файла:[/b] Файлы данных ~1 ГБ каждый (отдельный несжатый файл), предоставляется в формате .txt.gz.
[*][b]Соглашение об именовании:[/b] * Данные: [index]_[ГГГГ-ММ-ДД]_abc.txt.gz (например, 01_2026-01-01_abc.txt.gz) [list] Поиск/метаданные: abc_[ГГГГ-ММ-ДД]-lookup_data.tar.gz и abc_[ГГГГ-ММ-ДД].txt [/list] [b]Примечание:[/b] Я делаю довольно большие преобразования внутри потока лучей. [b]Вопросы:[/b] [list] [*]Лучше ли запускать одно массовое задание на весь год или зацикливать выполнение конвейера на месяц/день с помощью сценария CI/CD?
[*]Есть ли какие-то конкретные Конфигурации TextIO или FileIO в Java SDK для лучшей обработки большого количества неразбиваемых сжатых файлов?