Ситуация:
я читаю 25m+ строки, ~ 300 столбцов из BigQuery и записать на SQL Server с JDBC, и это занимает слишком много времени. Когда я смотрю на то, чтобы выяснить, какой шаг занимает больше всего времени неэффективно, я сталкиваюсь с SDFBoundSourCeerEader . SDFBoundedSourCeerEader Шаг получает элементы один за другим, и это увеличивает время, так как требуется, а также требует использования большого количества VCPU и получения множества ошибок, таких как
Я бы предпочел получить выход как Beam_row, потому что схема также занимает много времени из -за ~ 300 столбцов, однако, если у вас есть идея Чтобы получить лучшую производительность, добро пожаловать. Проверьте изображения из DataFlow ниже. < /p>
Пример DATAFLOW < /p>
Пример dataflow2 < /p>
Пример DATAFLOW
Ситуация: я читаю 25m+ строки, ~ 300 столбцов из BigQuery и записать на SQL Server с JDBC, и это занимает слишком много времени. Когда я смотрю на то, чтобы выяснить, какой шаг занимает больше всего времени неэффективно, я сталкиваюсь с SDFBoundSourCeerEader . SDFBoundedSourCeerEader Шаг получает элементы один за другим, и это увеличивает время, так как требуется, а также требует использования большого количества VCPU и получения множества ошибок, таких как [code]Error message from worker: Error encountered with the status channel: SDK harness sdk-0-0 disconnected.[/code] [code]Operation ongoing in bundle process_bundle-3484514982132990920-35 for at least 12m39s without outputting or completing:[/code] [code]Completed work item 7528337809130607698 UNSUCCESSFULLY: CANCELLED: [type.googleapis.com/util.MessageSetPayload='[dist_proc.dax.internal.StackTraceProto] { stack_top_loc { filepath: .... [dist_proc.dax.workflow.workflow_utils_message_ext]: WORK_PROGRESS_UPDATE_LEASE_ALREADY_CANCELLED }'][/code] Я попробовал: [list] [*] Добавление кластера и/или разделения в таблицу BigQuery [*] Добавление эксперимента, pre_optimize = all < /code> < /li> num Работники: 5, 10, 15, 20 (однако, конечно, я хотел бы использовать минимальный работник) < /li> Тип машины: n2-standard-4, n2-standard-8, n2-standard-16 < /li> Алгоритм автоматического масштаба: сквозной пропускной день (всегда) < / / li> Размер записи: 10000, 25000, 50000, 100000, 250000 < /li> < /ul> [code]ReadFromBigQuery[/code] Конфигурации:
Метод: экспорт [*] Метод: Direct_read < /li> Чтение из запроса [*] Чтение из таблицы [*] Выходной тип: beam_row [*] Тип вывода: python_dict < /code> и схема, которую я создал (я создал ([code]..NamedTuple[/code]) [/list] Я бы предпочел получить выход как Beam_row, потому что схема также занимает много времени из -за ~ 300 столбцов, однако, если у вас есть идея Чтобы получить лучшую производительность, добро пожаловать. Проверьте изображения из DataFlow ниже. < /p> Пример DATAFLOW < /p> Пример dataflow2 < /p> Пример DATAFLOW
dog bigquery.loadjobconfig () и нагрузки файлов метод Apache Beam записывает в метод BigQuery, так же
write_to_bq = (
csv_data
| Write to BigQuery >> WriteToBigQuery(
table= fetch_table,
schema='SCHEMA_AUTODETECT',...
Я использую Google BigQuery для моего проекта
прямо сейчас я пытаюсь вставить новую строку в BQ на основе этого написал/> private void insertRowsToBQ(MyCustomObject data) {
String datasetName = mydatasetname ;
String tableName = mytablename ;
Map...
Я использую Google BigQuery для моего проекта
прямо сейчас я пытаюсь вставить новую строку в BQ на основе этого написал/> private void insertRowsToBQ(MyCustomObject data) {
String datasetName = mydatasetname ;
String tableName = mytablename ;
Map...
У меня есть матрица V размером m × n, где каждый элемент представляет прогнозируемые цены на m различных семян овощей для n подряд дни. Кроме того, существует целое число c (1 ≤ c ≤ n − 2). Мне нужно найти максимальную прибыль, которую можно...
У меня есть фрейм данных с датой, % ежедневного возврата, % CumRetn.
Мне нужен код Python для вычисления % еженедельного дохода, который каждую неделю сбрасывается до нуля и кумулятивно увеличивается/уменьшается. каждую неделю каждого года
То же...