Как получить прибыль от/configuredfboundedsourceereader во время чтения из BigQuery в Python? - Цифровое Кемерово

Как получить прибыль от/configuredfboundedsourceereader во время чтения из BigQuery в Python? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как получить прибыль от/configuredfboundedsourceereader во время чтения из BigQuery в Python?

Цитата

Сообщение Anonymous » 29 янв 2025, 22:12

Ситуация:
я читаю 25m+ строки, ~ 300 столбцов из BigQuery и записать на SQL Server с JDBC, и это занимает слишком много времени. Когда я смотрю на то, чтобы выяснить, какой шаг занимает больше всего времени неэффективно, я сталкиваюсь с SDFBoundSourCeerEader . SDFBoundedSourCeerEader Шаг получает элементы один за другим, и это увеличивает время, так как требуется, а также требует использования большого количества VCPU и получения множества ошибок, таких как

Код: Выделить всё

Error message from worker: Error encountered with the status channel: SDK harness sdk-0-0 disconnected.

Код: Выделить всё

Operation ongoing in bundle process_bundle-3484514982132990920-35 for at least 12m39s without outputting or completing:

Код: Выделить всё

Completed work item 7528337809130607698 UNSUCCESSFULLY: CANCELLED:  [type.googleapis.com/util.MessageSetPayload='[dist_proc.dax.internal.StackTraceProto] { stack_top_loc { filepath: .... [dist_proc.dax.workflow.workflow_utils_message_ext]: WORK_PROGRESS_UPDATE_LEASE_ALREADY_CANCELLED }']

Я попробовал:

Добавление кластера и/или разделения в таблицу BigQuery
Добавление эксперимента, pre_optimize = all < /code> < /li>
num Работники: 5, 10, 15, 20 (однако, конечно, я хотел бы использовать минимальный работник) < /li>
Тип машины: n2-standard-4, n2-standard-8, n2-standard-16 < /li>
Алгоритм автоматического масштаба: сквозной пропускной день (всегда) < / / li>
Размер записи: 10000, 25000, 50000, 100000, 250000 < /li>
< /ul>
Код: Выделить всё
```
ReadFromBigQuery
```
Конфигурации:

Метод: экспорт
Метод: Direct_read < /li>
Чтение из запроса
Чтение из таблицы
Выходной тип: beam_row
Тип вывода: python_dict < /code> и схема, которую я создал (я создал (
Код: Выделить всё
```
..NamedTuple
```
)

Я бы предпочел получить выход как Beam_row, потому что схема также занимает много времени из -за ~ 300 столбцов, однако, если у вас есть идея Чтобы получить лучшую производительность, добро пожаловать. Проверьте изображения из DataFlow ниже. < /p>
Пример DATAFLOW < /p>
Пример dataflow2 < /p>
Пример DATAFLOW

Подробнее здесь: https://stackoverflow.com/questions/793 ... bigquery-i

Реклама

1738177943

Anonymous

 Ситуация:
я читаю 25m+ строки, ~ 300 столбцов из BigQuery и записать на SQL Server с JDBC, и это занимает слишком много времени. Когда я смотрю на то, чтобы выяснить, какой шаг занимает больше всего времени неэффективно, я сталкиваюсь с SDFBoundSourCeerEader . SDFBoundedSourCeerEader  Шаг получает элементы один за другим, и это увеличивает время, так как требуется, а также требует использования большого количества VCPU и получения множества ошибок, таких как 
[code]Error message from worker: Error encountered with the status channel: SDK harness sdk-0-0 disconnected.[/code] 
[code]Operation ongoing in bundle process_bundle-3484514982132990920-35 for at least 12m39s without outputting or completing:[/code] 
[code]Completed work item 7528337809130607698 UNSUCCESSFULLY: CANCELLED:  [type.googleapis.com/util.MessageSetPayload='[dist_proc.dax.internal.StackTraceProto] { stack_top_loc { filepath: .... [dist_proc.dax.workflow.workflow_utils_message_ext]: WORK_PROGRESS_UPDATE_LEASE_ALREADY_CANCELLED }'][/code] 
Я попробовал: 
[list]
[*] Добавление кластера и/или разделения в таблицу BigQuery   [*] Добавление эксперимента, pre_optimize = all < /code> < /li>
 num Работники: 5, 10, 15, 20 (однако, конечно, я хотел бы использовать минимальный работник) < /li>
 Тип машины: n2-standard-4, n2-standard-8, n2-standard-16 < /li>
 Алгоритм автоматического масштаба: сквозной пропускной день (всегда) < / / li>
 Размер записи: 10000, 25000, 50000, 100000, 250000 < /li>
< /ul>
[code]ReadFromBigQuery[/code] Конфигурации: 

 Метод: экспорт 
[*] Метод: Direct_read  < /li>
 Чтение из запроса
[*] Чтение из таблицы
[*] Выходной тип: beam_row 
[*] Тип вывода: python_dict < /code> и схема, которую я создал (я создал ([code]..NamedTuple[/code])
[/list]
Я бы предпочел получить выход как Beam_row, потому что схема также занимает много времени из -за ~ 300 столбцов, однако, если у вас есть идея Чтобы получить лучшую производительность, добро пожаловать. Проверьте изображения из DataFlow ниже. < /p>
Пример DATAFLOW < /p>
Пример dataflow2 < /p>
Пример DATAFLOW 
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79397898/how-to-profit-from-configuresdfboundedsourcereader-while-reading-from-bigquery-i[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Do BigQuery.loadJobConfig () и File Loads Method of Apache Beam записать в метод BigQuery - это то же самое

Последнее сообщение Anonymous « 11 апр 2025, 17:01
Добавлено в форуме Python

Anonymous » 11 апр 2025, 17:01 » в форуме Python

dog bigquery.loadjobconfig () и нагрузки файлов метод Apache Beam записывает в метод BigQuery, так же
write_to_bq = (
csv_data
| Write to BigQuery >> WriteToBigQuery(
table= fetch_table,
schema='SCHEMA_AUTODETECT',...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
11 апр 2025, 17:01
Google BigQuery - потоковые данные в BigQuery

Последнее сообщение Anonymous « 27 май 2025, 11:33
Добавлено в форуме JAVA

Anonymous » 27 май 2025, 11:33 » в форуме JAVA

Я использую Google BigQuery для моего проекта
прямо сейчас я пытаюсь вставить новую строку в BQ на основе этого написал/> private void insertRowsToBQ(MyCustomObject data) {
String datasetName = mydatasetname ;
String tableName = mytablename ;
Map...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
27 май 2025, 11:33
Google BigQuery - потоковые данные в BigQuery

Последнее сообщение Anonymous « 28 май 2025, 12:56
Добавлено в форуме JAVA

Anonymous » 28 май 2025, 12:56 » в форуме JAVA

Я использую Google BigQuery для моего проекта
прямо сейчас я пытаюсь вставить новую строку в BQ на основе этого написал/> private void insertRowsToBQ(MyCustomObject data) {
String datasetName = mydatasetname ;
String tableName = mytablename ;
Map...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
28 май 2025, 12:56
Максимизировать прибыль от m семян различных овощей в течение n дней подряд

Последнее сообщение Гость « 20 сен 2023, 21:24
Добавлено в форуме Python

Гость » 20 сен 2023, 21:24 » в форуме Python

У меня есть матрица V размером m × n, где каждый элемент представляет прогнозируемые цены на m различных семян овощей для n подряд дни. Кроме того, существует целое число c (1 ≤ c ≤ n − 2). Мне нужно найти максимальную прибыль, которую можно...

0 Ответы

48 Просмотры

Последнее сообщение Гость
20 сен 2023, 21:24
Совокупная еженедельная, ежемесячная, квартальная доходность от ежедневных доходов и совокупная ежедневная прибыль.

Последнее сообщение Anonymous « 31 июл 2024, 04:10
Добавлено в форуме Python

Anonymous » 31 июл 2024, 04:10 » в форуме Python

У меня есть фрейм данных с датой, % ежедневного возврата, % CumRetn.
Мне нужен код Python для вычисления % еженедельного дохода, который каждую неделю сбрасывается до нуля и кумулятивно увеличивается/уменьшается. каждую неделю каждого года
То же...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
31 июл 2024, 04:10

Вернуться в «Python»

Programmiererforum