Присоединяйтесь к быстро и медленно меняющимся неограниченным источникам в Apache Beam.

Присоединяйтесь к быстро и медленно меняющимся неограниченным источникам в Apache Beam. ⇐ JAVA

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Присоединяйтесь к быстро и медленно меняющимся неограниченным источникам в Apache Beam.

Цитата

Сообщение Anonymous » 13 янв 2025, 18:05

У меня есть два неограниченных источника (pubsub):

основной источник: часто выдает значения
вторичный источник: отправляет событие, которое говорит нам прочитать большую таблицу запросов, поскольку в таблице произошли изменения.

Я хочу расширить (левое соединение) основной источник с таблицей, считанной на основе вторичного источника.
У меня уже есть решение, в котором большие таблицы запросов считываются в начале, поэтому они ограничены. Для объединения я использовал Beam SQL, поскольку он довольно сложен, и я хочу его сохранить, поэтому я считаю, что использование бокового ввода невозможно, поскольку я не думаю, что смогу присоединиться к PCollection с помощью PCollectionView с использованием Beam SQL.
Я пытался использовать фиксированное окно с 5 секундами для каждого источника, но для второго источника последнее состояние не распространяется на окна, где ничего не изменилось. Поэтому после объединения источников я получаю правильные результаты только тогда, когда таблица BigQuery была обновлена, но когда ничего не изменилось (большую часть времени), я получаю нулевые значения справа.
Как Могу ли я повысить дискретизацию источника секунд, чтобы получить правильные результаты после объединения?

Подробнее здесь: https://stackoverflow.com/questions/793 ... pache-beam

1736780708

Anonymous

У меня есть два неограниченных источника (pubsub):
[list]
[*]основной источник: часто выдает значения
[*]вторичный источник: отправляет событие, которое говорит нам прочитать большую таблицу запросов, поскольку в таблице произошли изменения.
[/list]
Я хочу расширить (левое соединение) основной источник с таблицей, считанной на основе вторичного источника.
У меня уже есть решение, в котором большие таблицы запросов считываются в начале, поэтому они ограничены. Для объединения я использовал Beam SQL, поскольку он довольно сложен, и я хочу его сохранить, поэтому я считаю, что использование бокового ввода невозможно, поскольку я не думаю, что смогу присоединиться к PCollection с помощью PCollectionView с использованием Beam SQL.
Я пытался использовать фиксированное окно с 5 секундами для каждого источника, но для второго источника последнее состояние не распространяется на окна, где ничего не изменилось. Поэтому после объединения источников я получаю правильные результаты только тогда, когда таблица BigQuery была обновлена, но когда ничего не изменилось (большую часть времени), я получаю нулевые значения справа.
Как Могу ли я повысить дискретизацию источника секунд, чтобы получить правильные результаты после объединения? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79346113/join-a-rapidly-and-slowly-changing-unbounded-sources-in-apache-beam[/url]