Ветвление Apache Flink - Цифровое Кемерово

Ветвление Apache Flink ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 25 янв 2025, 16:04

Обзор проблемы: 
Я работаю над приложением Flink, которое позволяет пользователям динамически разрабатывать данные Dataflows. Двигатель Core построен вокруг этапов, где DataStream передается последовательно через эти этапы. Каждый этап обрабатывает поток и выводит его, который затем передается на следующий этап. Каждый маршрут имеет: 
case (условие): конкретное значение для проверки поля в записях DataStream.
Трубопровод с этапами: каждый маршрут может иметь свой Собственная уникальная последовательность этапов для обработки данных, которые соответствуют его случаю. /> Убедитесь, что запись входит в маршрут только тогда, когда его состояние соответствует случаю этого маршрута. Сначала построен, и данные не обрабатываются до начала работы. В связи с этим: 
Если логика маршрутизации размещена вне функции ProcessElement (), она выполняет перед обработкой каких -либо данных, вызывая преждевременные маршруты.
Если Логика маршрутизации помещается в функцию ProcessElement (), я могу правильно направить отдельные записи, но:
Я не могу передать полученную маршрутируемое DataStream на последующие этапы.
processelement () работает только на отдельных записях, поэтому, поэтому, поэтому, поэтому, поэтому, поэтому, поэтому, поэтому, так что, так Это не позволяет мне обрабатывать полные преобразования данных динамически динамически для каждого маршрута. Создание плана.
Каждый маршрут должен иметь свой собственный независимый конвейер этапов, который должен обрабатывать только данные, которые соответствуют условию маршрута. происходит только тогда, когда поступят данные. Данные обрабатываются, потому что Flink оценивает логику преобразования заранее из -за ленивой оценки.
В результате введены все маршруты, что не является желаемым поведением.
логика маршрутизации Inside ProcessElement (): 
, перемещая логику маршрутизации внутри процессаэлизации (), я могу правильно определить, к какому маршруту принадлежит запись. или передавать полученный маршрутизированный DataStream к соответствующему конвейеру этапов. : Field
Маршруты:
route a: field = "case1"
route b: field = "case2"
ожидаемое поведение: 
Для каждой записи в DataStream:
Если значение поля равна «case1», запись должна быть направлена на маршруту A и обрабатывается через его этапы.
Если значение поля равно "case2", Запись должна быть направлена на маршрут B и обрабатывается на его этапах.
Стремительная оценка: все конвейеры маршрутов (например, этапы для маршрута A и маршрута B) выполняются до появления любых данных.
Обработка с одним рекордом: размещение логики в ProcessElement () позволяет мне Обработка отдельных записей, но я не могу динамически передать полученную маршрутируемое DataStream к последующим стадийным трубопроводам. Значения во время выполнения.
Каждый маршрут должен иметь свой собственный конвейер этапов, который обрабатывает данные, соответствующие его случаю. Пример для разъяснения :
Мой код зависит от этапов, каждый этап может быть источником, преобразованием или раковиной, и каждый этап содержит функцию инициализации и выполнять Функция. Это настроено следующим образом:

Код: Выделить всё

stages=source:source1,rules:rules1,switch:switch1
switch1.type=switch
switch1.routes=routeA,routeB
switch1.field=user_id
routeA.case=1
routeA.stages=source:source2,rules:rules2,target:target1
routeB.case=2
routeB.stages=source:source3,rules:rules3,target:target2

Я исправил свой поток данных, чтобы он всегда содержал user_id, равный 1, поэтому теперь он всегда должен вводить маршрут A.
Но он всегда входит в оба маршрута.Это мой класс Switch Stage:
https://docs.google.com/document/d/1pJU ... sp=sharing
все журналы распечатываются до поступления данных, и код входит в инициализацию и выполнение всех маршрутов, он не входит в RouteSplitterFunction сначала решает, какой маршрут следует выбрать.

Надеюсь, это прояснит мою проблему.

Подробнее здесь: https://stackoverflow.com/questions/793 ... -branching

1737810277

Anonymous

 [b] Обзор проблемы: < /strong>
Я работаю над приложением Flink, которое позволяет пользователям динамически разрабатывать данные Dataflows. Двигатель Core построен вокруг этапов, где DataStream передается последовательно через эти этапы. Каждый этап обрабатывает поток и выводит его, который затем передается на следующий этап. Каждый маршрут имеет: < /p>
case (условие): конкретное значение для проверки поля в записях DataStream.
Трубопровод с этапами: каждый маршрут может иметь свой Собственная уникальная последовательность этапов для обработки данных, которые соответствуют его случаю. /> Убедитесь, что запись входит в маршрут только тогда, когда его состояние соответствует случаю этого маршрута. Сначала построен, и данные не обрабатываются до начала работы. В связи с этим: < /p>
Если логика маршрутизации размещена вне функции ProcessElement (), она выполняет перед обработкой каких -либо данных, вызывая преждевременные маршруты.
Если Логика маршрутизации помещается в функцию ProcessElement (), я могу правильно направить отдельные записи, но:
Я не могу передать полученную маршрутируемое DataStream на последующие этапы.
processelement () работает только на отдельных записях, поэтому, поэтому, поэтому, поэтому, поэтому, поэтому, поэтому, поэтому, так что, так Это не позволяет мне обрабатывать полные преобразования данных динамически динамически для каждого маршрута. Создание плана.
Каждый маршрут должен иметь свой собственный независимый конвейер этапов, который должен обрабатывать только данные, которые соответствуют условию маршрута. происходит только тогда, когда поступят данные. Данные обрабатываются, потому что Flink оценивает логику преобразования заранее из -за ленивой оценки.
В результате введены все маршруты, что не является желаемым поведением.
логика маршрутизации Inside ProcessElement (): < /p >
, перемещая логику маршрутизации внутри процессаэлизации (), я могу правильно определить, к какому маршруту принадлежит запись. или передавать полученный маршрутизированный DataStream к соответствующему конвейеру этапов. : Field
Маршруты:
route a: field = "case1"
route b: field = "case2"
ожидаемое поведение: < /p>
Для каждой записи в DataStream:
Если значение поля равна «case1», запись должна быть направлена на маршруту A и обрабатывается через его этапы.
Если значение поля равно "case2", Запись должна быть направлена на маршрут B и обрабатывается на его этапах.
Стремительная оценка: все конвейеры маршрутов (например, этапы для маршрута A и маршрута B) выполняются до появления любых данных.
Обработка с одним рекордом: размещение логики в ProcessElement () позволяет мне Обработка отдельных записей, но я не могу динамически передать полученную маршрутируемое DataStream к последующим стадийным трубопроводам. Значения во время выполнения.
Каждый маршрут должен иметь свой собственный конвейер этапов, который обрабатывает данные, соответствующие его случаю.   Пример для разъяснения [/b]: 
Мой код зависит от этапов, каждый этап может быть источником, преобразованием или раковиной, и каждый этап содержит функцию инициализации и выполнять Функция. Это настроено следующим образом: < /p>
[code]stages=source:source1,rules:rules1,switch:switch1
switch1.type=switch
switch1.routes=routeA,routeB
switch1.field=user_id
routeA.case=1
routeA.stages=source:source2,rules:rules2,target:target1
routeB.case=2
routeB.stages=source:source3,rules:rules3,target:target2
[/code]
Я исправил свой поток данных, чтобы он всегда содержал user_id, равный 1, поэтому теперь он всегда должен вводить маршрут A.
Но он всегда входит в оба маршрута.[b]Это мой класс Switch Stage[/b]:
https://docs.google.com/document/d/1pJUulzAmcMnYfawZqH7RUHvsWDb7ahGcxigYoab-D5M/edit?usp=sharing
все журналы распечатываются до поступления данных, и код входит в инициализацию и выполнение всех маршрутов, он не входит в [b]RouteSplitterFunction[/b] сначала решает, какой маршрут следует выбрать.

Надеюсь, это прояснит мою проблему. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79380446/apache-flink-branching[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Java Flink NoClassDefFoundError org/apache/flink/shaded/guava30/com/google/common/io/Closer

Последнее сообщение Anonymous « 22 сен 2024, 21:04
Добавлено в форуме JAVA

Anonymous » 22 сен 2024, 21:04 » в форуме JAVA

У меня есть приложение Java 21, которое использует зависимости Apache Flink (версия 1.20.0) для фильтрации потока Kafka.
Когда я пытаюсь выполнить свою программу, я получаю следующую ошибку: п>
INFO...

0 Ответы

107 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 21:04
Логические операторы: ветвление с использованием логических переменных (Python)

Последнее сообщение Anonymous « 10 фев 2025, 19:26
Добавлено в форуме Python

Anonymous » 10 фев 2025, 19:26 » в форуме Python

Я работаю над домашним заданием, и у меня ужасное время, чтобы он правильно вернул окончательное заявление.

Инструкция:

Напишите выражение, которое печатает, вы должны быть богатыми! ' Если переменные
молодые и известные оба. :

young = True...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
10 фев 2025, 19:26
Конфликтующие версии Flink-shaded-guava при попытке создать затененную банку для задания Flink.

Последнее сообщение Гость « 14 мар 2024, 11:05
Добавлено в форуме JAVA

Гость » 14 мар 2024, 11:05 » в форуме JAVA

При попытке создать jar-файл для программы Flink Batch для работы в EMR я столкнулся с конфликтами с версиями jar-файла flink-shaded-guava.
pom.xml
р>

org.apache.flink
flink-clients_2.11
1.14.6

org.apache.flink
flink-core
1.18.1...

0 Ответы

86 Просмотры

Последнее сообщение Гость
14 мар 2024, 11:05
Где я могу найти банку Flink-sql-gateway-client-jdbc, чтобы соединить шлюз Flink SQL через DBEAVER?

Последнее сообщение Anonymous « 31 мар 2025, 13:48
Добавлено в форуме JAVA

Anonymous » 31 мар 2025, 13:48 » в форуме JAVA

Я пытаюсь подключиться к шлюзу Apache Flink SQL с помощью DBEAVER через JDBC. Я читал, что мне нужен файл JAR Flink-Sql-Gateway-Client-JDBC (или аналогичный) в качестве драйвера JDBC.
Однако я не могу найти его в любом хранилище Maven или в...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
31 мар 2025, 13:48
Подключите Apache flink к Apache kudu в качестве приемника, используя pyflink

Последнее сообщение Anonymous « 01 апр 2024, 12:49
Добавлено в форуме Python

Anonymous » 01 апр 2024, 12:49 » в форуме Python

Я новичок в Flink, и мне нужно подключить потоковую передачу Apache Flink к Apache Kudu в качестве приемника.

источником является CSV-файл с X записи, прочитанные из файловой системы
источником является коннектор Kafka (создайте таблицу с...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
01 апр 2024, 12:49

Вернуться в «JAVA»