Почему мой конвейер потока данных Apache Beam не записывает данные в BigQuery? - Цифровое Кемерово

Почему мой конвейер потока данных Apache Beam не записывает данные в BigQuery? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Почему мой конвейер потока данных Apache Beam не записывает данные в BigQuery?

Цитата

Сообщение Anonymous » 27 дек 2024, 13:59

Я работаю над конвейером Apache Beam, который обрабатывает данные и записывает их в BigQuery. Конвейер отлично работает при использовании DirectRunner, но когда я переключаюсь на DataflowRunner, он завершается без ошибок и предупреждений, но не вставляет никаких строк в BigQuery. Кроме того, я вижу большие оставшиеся файлы во временном каталоге моего сегмента Cloud Storage (

Код: Выделить всё

gs://my-bucket/temp/bq_load/...

), а в целевой таблице данные не отображаются.
Вот структура конвейера:

Код: Выделить всё

worker_options.sdk_container_image = '...'

with beam.Pipeline(options=pipeline_options) as p:
processed_data = (
p
| "ReadFiles" >> beam.Create(FILE_LIST)
| "ProcessFiles" >> beam.ParDo(ProcessAvroFileDoFn())
| "WriteToBigQuery" >> beam.io.WriteToBigQuery(
table=f"{PROJECT_ID}:{DATASET_ID}.{TABLE_ID}",
schema=BQ_SCHEMA,
write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND,
create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED
)
)

Основные наблюдения:

Конвейер успешно работает с DirectRunner, записывая данные в BigQuery без каких-либо проблем.
При использовании DataflowRunner конвейер завершается без ошибок и предупреждений, но: строки не записываются в BigQuery, а большие временные файлы остаются в корзине (например, bq_load/...).
Обрабатываемые данные допустим NDJSON.
Схема BigQuery соответствует структуре данных.

Что я пробовал:

Проверяя оставшиеся временные файлы, я загрузил временный файл и убедился, что он содержит допустимые строки NDJSON. Загрузка этого файла в BigQuery вручную с помощью команды bq load работает нормально.
Тестирование с другими наборами данных:
Я пробовал много разных входных данных. , но проблема остается.
Проверка журналов потока данных:
Я просмотрел журналы в консоли мониторинга потока данных, но не обнаружил ошибок. или предупреждения.
Другая учетная запись службы: учетная запись службы с недостаточными разрешениями на поток данных выдает ошибку. Поэтому маловероятно, что проблема заключается в разрешениях для работников.

Я видел еще одну ветку об этом (можно не заставляю Apache записывать выходные данные в bigquery при использовании DataflowRunner), но там ничего не решено.

Подробнее здесь: https://stackoverflow.com/questions/793 ... o-bigquery

Реклама

1735297159

Anonymous

Я работаю над конвейером Apache Beam, который обрабатывает данные и записывает их в BigQuery. Конвейер отлично работает при использовании DirectRunner, но когда я переключаюсь на DataflowRunner, он завершается без ошибок и предупреждений, но не вставляет никаких строк в BigQuery. Кроме того, я вижу большие оставшиеся файлы во временном каталоге моего сегмента Cloud Storage ([code]gs://my-bucket/temp/bq_load/...[/code]), а в целевой таблице данные не отображаются.
Вот структура конвейера:
[code]worker_options.sdk_container_image = '...'

with beam.Pipeline(options=pipeline_options) as p:
processed_data = (
p
| "ReadFiles" >> beam.Create(FILE_LIST)
| "ProcessFiles" >> beam.ParDo(ProcessAvroFileDoFn())
| "WriteToBigQuery" >> beam.io.WriteToBigQuery(
table=f"{PROJECT_ID}:{DATASET_ID}.{TABLE_ID}",
schema=BQ_SCHEMA,
write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND,
create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED
)
)

[/code]
Основные наблюдения:
[list]
[*]Конвейер успешно работает с DirectRunner, записывая данные в BigQuery без каких-либо проблем.
При использовании DataflowRunner конвейер завершается без ошибок и предупреждений, но: строки не записываются в BigQuery, а большие временные файлы остаются в корзине (например, bq_load/...).
[*]Обрабатываемые данные допустим NDJSON.
[*]Схема BigQuery соответствует структуре данных.
[/list]
Что я пробовал:
[list]
[*]Проверяя оставшиеся временные файлы, я загрузил временный файл и убедился, что он содержит допустимые строки NDJSON. Загрузка этого файла в BigQuery вручную с помощью команды bq load работает нормально.

[*]Тестирование с другими наборами данных:
Я пробовал много разных входных данных. , но проблема остается.

[*]Проверка журналов потока данных:
Я просмотрел журналы в консоли мониторинга потока данных, но не обнаружил ошибок. или предупреждения.

[*]Другая учетная запись службы: учетная запись службы с недостаточными разрешениями на поток данных выдает ошибку. Поэтому маловероятно, что проблема заключается в разрешениях для работников.

[/list]
Я видел еще одну ветку об этом (можно не заставляю Apache записывать выходные данные в bigquery при использовании DataflowRunner), но там ничего не решено. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79303517/why-does-my-apache-beam-dataflow-pipeline-not-write-to-bigquery[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему мой конвейер потока данных Apache Beam не записывает данные в BigQuery?

Последнее сообщение Anonymous « 23 дек 2024, 18:23
Добавлено в форуме Python

Anonymous » 23 дек 2024, 18:23 » в форуме Python

Я работаю над конвейером Apache Beam, который обрабатывает данные и записывает их в BigQuery. Конвейер отлично работает при использовании DirectRunner, но когда я переключаюсь на DataflowRunner, он завершается без ошибок и предупреждений, но не...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
23 дек 2024, 18:23
Почему мой конвейер потока данных Apache Beam не записывает данные в BigQuery?

Последнее сообщение Anonymous « 24 дек 2024, 11:43
Добавлено в форуме Python

Anonymous » 24 дек 2024, 11:43 » в форуме Python

Я работаю над конвейером Apache Beam, который обрабатывает данные и записывает их в BigQuery. Конвейер отлично работает при использовании DirectRunner, но когда я переключаюсь на DataflowRunner, он завершается без ошибок и предупреждений, но не...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
24 дек 2024, 11:43
Почему мой конвейер потока данных Apache Beam не записывает данные в BigQuery?

Последнее сообщение Anonymous « 29 дек 2024, 00:59
Добавлено в форуме Python

Anonymous » 29 дек 2024, 00:59 » в форуме Python

Я работаю над конвейером Apache Beam, который обрабатывает данные и записывает их в BigQuery. Конвейер отлично работает при использовании DirectRunner, но когда я переключаюсь на DataflowRunner, он завершается без ошибок и предупреждений, но не...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
29 дек 2024, 00:59
Do BigQuery.loadJobConfig () и File Loads Method of Apache Beam записать в метод BigQuery - это то же самое

Последнее сообщение Anonymous « 11 апр 2025, 17:01
Добавлено в форуме Python

Anonymous » 11 апр 2025, 17:01 » в форуме Python

dog bigquery.loadjobconfig () и нагрузки файлов метод Apache Beam записывает в метод BigQuery, так же
write_to_bq = (
csv_data
| Write to BigQuery >> WriteToBigQuery(
table= fetch_table,
schema='SCHEMA_AUTODETECT',...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
11 апр 2025, 17:01
Apache Beam записывает ошибку полезной нагрузки bigquery json

Последнее сообщение Anonymous « 18 ноя 2024, 13:54
Добавлено в форуме Python

Anonymous » 18 ноя 2024, 13:54 » в форуме Python

Написание конвейера, который разбивает поток на таблицы, динамически именуемые по имени event_name и event_date в данных, в Dataflow.
Таблицы создаются с правильным именем, но данные не записываются, ссылаясь на ошибку форматирования ниже....

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
18 ноя 2024, 13:54

Вернуться в «Python»

Programmiererforum