Проблема нехватки памяти при запуске конвейера потоковой передачи лучей с использованием потока данных gcp с Kafka в кач

Проблема нехватки памяти при запуске конвейера потоковой передачи лучей с использованием потока данных gcp с Kafka в кач ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема нехватки памяти при запуске конвейера потоковой передачи лучей с использованием потока данных gcp с Kafka в кач

Цитата

Сообщение Anonymous » 26 сен 2024, 20:16

Я пытаюсь настроить конвейер потоковой передачи данных в Python, где источником является kafka, а приемником — таблица postgres (см. код моего конвейера ниже). Тема Kafka имеет несколько разделов с несколькими брокерами. Когда я запускаю этот конвейер, я наблюдаю, что объем рабочей памяти постоянно увеличивается.
Я работаю с двумя рабочими процессами, каждый из которых использует машину n2d-standard-64. Приток сообщений от Kafka довольно высок. Я предполагаю, что сообщения не обрабатываются конвейером с такой скоростью. Из-за этого многие сообщения (необработанные сообщения) остаются в памяти дольше, а использование рабочей памяти продолжает увеличиваться, что в конечном итоге приводит к ошибке OOM.
Я попробовал несколько разных вещей, чтобы контролировать использование памяти:< /p>

ограничить количество процессов SDK до 1
ограничить количество потоков жгута до 1
увеличить размер вычислений (использовать машины Highmem)
ограничить приток kafka, настроив потребительские параметры kafka (max.poll.records, fetch.max.bytes, max.partition.fetch.bytes , fetch.min.bytes, poll.timeout.ms)

Ни одно из вышеперечисленных решений не помогло контролировать рост рабочей памяти. Может ли кто-нибудь предложить решение для управления притоком Kafka в нижележащем конвейере потока данных?
А также можно ли выполнять смещения фиксации вручную после записи сообщения в Postgres в конвейере лучей?

Код: Выделить всё

with beam.Pipeline(options=options) as pipeline:

kafka_config = {
'bootstrap.servers': ','.join(KAFKA_BOOTSTRAP_SERVERS),
'group.id': 'my_group_id',
'auto.offset.reset': 'earliest',
'enable.auto.commit': 'true',
}

_ = (
pipeline
| 'Kafka Read'
>> ReadFromKafka(
consumer_config=kafka_config,
topics=[KAFKA_TOPIC],
)
| 'filter' >> beam.Map(apply_filter)
| 'Write'
>> beam.ParDo(
PostgresWriter())
)

Подробнее здесь: https://stackoverflow.com/questions/789 ... ataflow-wi

1727370967

Anonymous

Я пытаюсь настроить конвейер потоковой передачи данных в Python, где источником является kafka, а приемником — таблица postgres (см. код моего конвейера ниже). Тема Kafka имеет несколько разделов с несколькими брокерами. Когда я запускаю этот конвейер, я наблюдаю, что объем рабочей памяти постоянно увеличивается.
Я работаю с двумя рабочими процессами, каждый из которых использует машину n2d-standard-64. Приток сообщений от Kafka довольно высок. Я предполагаю, что сообщения не обрабатываются конвейером с такой скоростью. Из-за этого многие сообщения (необработанные сообщения) остаются в памяти дольше, а использование рабочей памяти продолжает увеличиваться, что в конечном итоге приводит к ошибке OOM.
Я попробовал несколько разных вещей, чтобы контролировать использование памяти:< /p>
[list]
[*]ограничить количество процессов SDK до 1
[*]ограничить количество потоков жгута до 1
[*]увеличить размер вычислений (использовать машины Highmem)
[*]ограничить приток kafka, настроив потребительские параметры kafka (max.poll.records, fetch.max.bytes, max.partition.fetch.bytes , fetch.min.bytes, poll.timeout.ms)
[/list]
Ни одно из вышеперечисленных решений не помогло контролировать рост рабочей памяти. Может ли кто-нибудь предложить решение для управления притоком Kafka в нижележащем конвейере потока данных?
А также можно ли выполнять смещения фиксации вручную после записи сообщения в Postgres в конвейере лучей?
[code]with beam.Pipeline(options=options) as pipeline:

kafka_config = {
'bootstrap.servers': ','.join(KAFKA_BOOTSTRAP_SERVERS),
'group.id': 'my_group_id',
'auto.offset.reset': 'earliest',
'enable.auto.commit': 'true',
}

_ = (
pipeline
| 'Kafka Read'
>> ReadFromKafka(
consumer_config=kafka_config,
topics=[KAFKA_TOPIC],
)
| 'filter' >> beam.Map(apply_filter)
| 'Write'
>> beam.ParDo(
PostgresWriter())
)
[/code]
[img]https://i.sstatic.net/BHpxWnjz.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78912690/out-of-memory-issue-when-running-a-beam-streaming-pipeline-using-gcp-dataflow-wi[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Процесс потоковой передачи лучей Apache с временными окнами

Последнее сообщение Anonymous « 08 июл 2024, 20:34
Добавлено в форуме Python

Anonymous » 08 июл 2024, 20:34 » в форуме Python

У меня есть конвейер потока данных, который читает сообщения из Kafka, обрабатывает их и вставляет в bigquery.

Я хочу, чтобы обработка/вставка bigquery происходила пакетами на основе времени, чтобы при каждом (1 минута), все сообщения, прочитанные...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
08 июл 2024, 20:34
Использование PipeStream для передачи потока ответов для ведения журнала без потери эффекта потоковой передачи для конеч

Последнее сообщение Anonymous « 03 май 2024, 06:06
Добавлено в форуме C#

Anonymous » 03 май 2024, 06:06 » в форуме C#

У меня есть конечная точка, которая передает List как IAsyncEnumerable в ответе, и поэтому при использовании в браузере ответ загружается с эффектом потоковой передачи по мере записи данных в поток ответа.
Теперь у меня также есть сквозное...

0 Ответы

91 Просмотры

Последнее сообщение Anonymous
03 май 2024, 06:06
Ошибка нехватки памяти при запуске gradlew assembleRelease – реагирование-родной

Последнее сообщение Anonymous « 10 окт 2024, 03:05
Добавлено в форуме JAVA

Anonymous » 10 окт 2024, 03:05 » в форуме JAVA

Я получаю эту ошибку при создании сборки релиза для моего собственного проекта React:
Expiring Daemon because JVM heap space is exhausted

> Task :app:transformDexArchiveWithDexMergerForRelease FAILED

FAILURE: Build failed with an exception.

*...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
10 окт 2024, 03:05
Как реализовать переработку памяти графического процессора в CUDA C++ для потоковой передачи данных в TensorFlow?

Последнее сообщение Anonymous « 04 янв 2025, 18:59
Добавлено в форуме C++

Anonymous » 04 янв 2025, 18:59 » в форуме C++

Мне нужно определиться со спецификацией проекта для моего курса HPC, который включает оптимизацию использования памяти графического процессора в контексте потоковой передачи данных. В частности, я стремлюсь реализовать механизм повторного...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 18:59
Как реализовать переработку памяти графического процессора в CUDA C++ для потоковой передачи данных в TensorFlow?

Последнее сообщение Anonymous « 05 янв 2025, 01:18
Добавлено в форуме C++

Anonymous » 05 янв 2025, 01:18 » в форуме C++

Мне нужно определиться со спецификацией проекта для моего курса HPC, который включает оптимизацию использования памяти графического процессора в контексте потоковой передачи данных. В частности, я стремлюсь реализовать механизм повторного...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
05 янв 2025, 01:18

Вернуться в «Python»