Эффективная обработка файлов ежедневной истории за 1 год с использованием потока данных

Эффективная обработка файлов ежедневной истории за 1 год с использованием потока данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Эффективная обработка файлов ежедневной истории за 1 год с использованием потока данных

Цитата

Сообщение Anonymous » 03 мар 2026, 11:51

У меня есть конвейер Apache Beam (работающий на Dataflow), который обычно выполняет ежедневную пакетную загрузку из Cloud Storage в BigQuery. Исходная группа предоставила исторические данные за 1 год, которые необходимо заполнить обратно.

Объем: ~365 дней данных.
Файлов в день: Несколько файлов данных плюс файлы метаданных/поиска.
Размер файла: Файлы данных ~1 ГБ каждый (отдельный несжатый файл), предоставляется в формате .txt.gz.
Соглашение об именовании: * Данные: [index]_[ГГГГ-ММ-ДД]_abc.txt.gz (например, 01_2026-01-01_abc.txt.gz)
- Поиск/метаданные: abc_[ГГГГ-ММ-ДД]-lookup_data.tar.gz и abc_[ГГГГ-ММ-ДД].txt
Примечание:
Я делаю довольно большие преобразования внутри потока лучей.
Вопросы:
- Лучше ли запускать одно массовое задание на весь год или зацикливать выполнение конвейера на месяц/день с помощью сценария CI/CD?
- Есть ли какие-то конкретные Конфигурации TextIO или FileIO в Java SDK для лучшей обработки большого количества неразбиваемых сжатых файлов?

Подробнее здесь: https://stackoverflow.com/questions/798 ... g-dataflow

1772527883

Anonymous

У меня есть конвейер Apache Beam (работающий на Dataflow), который обычно выполняет ежедневную пакетную загрузку из Cloud Storage в BigQuery. Исходная группа предоставила исторические данные за 1 год, которые необходимо заполнить обратно.
[list]
[*][b]Объем:[/b] ~365 дней данных.

[*][b]Файлов в день:[/b] Несколько файлов данных плюс файлы метаданных/поиска.

[*][b]Размер файла:[/b] Файлы данных ~1 ГБ каждый (отдельный несжатый файл), предоставляется в формате .txt.gz.

[*][b]Соглашение об именовании:[/b] * Данные: [index]_[ГГГГ-ММ-ДД]_abc.txt.gz (например, 01_2026-01-01_abc.txt.gz)
[list]
Поиск/метаданные: abc_[ГГГГ-ММ-ДД]-lookup_data.tar.gz и abc_[ГГГГ-ММ-ДД].txt
[/list]
[b]Примечание:[/b]
Я делаю довольно большие преобразования внутри потока лучей.
[b]Вопросы:[/b]
[list]
[*]Лучше ли запускать одно массовое задание на весь год или зацикливать выполнение конвейера на месяц/день с помощью сценария CI/CD?

[*]Есть ли какие-то конкретные Конфигурации TextIO или FileIO в Java SDK для лучшей обработки большого количества неразбиваемых сжатых файлов?

[/list]

[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79899979/efficiently-processing-1-year-of-daily-historical-files-using-dataflow[/url]