Как получить прибыль от/configuredfboundedsourceereader во время чтения из BigQuery в Python?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как получить прибыль от/configuredfboundedsourceereader во время чтения из BigQuery в Python?

Сообщение Anonymous »

Ситуация:
я читаю 25m+ строки, ~ 300 столбцов из BigQuery и записать на SQL Server с JDBC, и это занимает слишком много времени. Когда я смотрю на то, чтобы выяснить, какой шаг занимает больше всего времени неэффективно, я сталкиваюсь с SDFBoundSourCeerEader . SDFBoundedSourCeerEader Шаг получает элементы один за другим, и это увеличивает время, так как требуется, а также требует использования большого количества VCPU и получения множества ошибок, таких как

Код: Выделить всё

Error message from worker: Error encountered with the status channel: SDK harness sdk-0-0 disconnected.

Код: Выделить всё

Operation ongoing in bundle process_bundle-3484514982132990920-35 for at least 12m39s without outputting or completing:

Код: Выделить всё

Completed work item 7528337809130607698 UNSUCCESSFULLY: CANCELLED:  [type.googleapis.com/util.MessageSetPayload='[dist_proc.dax.internal.StackTraceProto] { stack_top_loc { filepath: .... [dist_proc.dax.workflow.workflow_utils_message_ext]: WORK_PROGRESS_UPDATE_LEASE_ALREADY_CANCELLED }']

Я попробовал:
  • Добавление кластера и/или разделения в таблицу BigQuery
  • Добавление эксперимента, pre_optimize = all < /code> < /li>
    num Работники: 5, 10, 15, 20 (однако, конечно, я хотел бы использовать минимальный работник) < /li>
    Тип машины: n2-standard-4, n2-standard-8, n2-standard-16 < /li>
    Алгоритм автоматического масштаба: сквозной пропускной день (всегда) < / / li>
    Размер записи: 10000, 25000, 50000, 100000, 250000 < /li>
    < /ul>

    Код: Выделить всё

    ReadFromBigQuery
    Конфигурации:

    Метод: экспорт
  • Метод: Direct_read < /li>
    Чтение из запроса
  • Чтение из таблицы
  • Выходной тип: beam_row
  • Тип вывода: python_dict < /code> и схема, которую я создал (я создал (

    Код: Выделить всё

    ..NamedTuple
    )
Я бы предпочел получить выход как Beam_row, потому что схема также занимает много времени из -за ~ 300 столбцов, однако, если у вас есть идея Чтобы получить лучшую производительность, добро пожаловать. Проверьте изображения из DataFlow ниже. < /p>
Пример DATAFLOW < /p>
Пример dataflow2 < /p>
Пример DATAFLOW


Подробнее здесь: https://stackoverflow.com/questions/793 ... bigquery-i
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»