- основной источник: часто выдает значения
- вторичный источник: отправляет событие, которое говорит нам прочитать большую таблицу запросов, поскольку в таблице произошли изменения.
У меня уже есть решение, в котором большие таблицы запросов считываются в начале, поэтому они ограничены. Для объединения я использовал Beam SQL, поскольку он довольно сложен, и я хочу его сохранить, поэтому я считаю, что использование бокового ввода невозможно, поскольку я не думаю, что смогу присоединиться к PCollection с помощью PCollectionView с использованием Beam SQL.
Я пытался использовать фиксированное окно с 5 секундами для каждого источника, но для второго источника последнее состояние не распространяется на окна, где ничего не изменилось. Поэтому после объединения источников я получаю правильные результаты только тогда, когда таблица BigQuery была обновлена, но когда ничего не изменилось (большую часть времени), я получаю нулевые значения справа.
Как Могу ли я повысить дискретизацию источника секунд, чтобы получить правильные результаты после объединения?
Подробнее здесь: https://stackoverflow.com/questions/793 ... pache-beam