У меня есть конвейер потоковой передачи Spark в Azure Synapse, который постоянно прослушивает события. Это в основном код Python с потоком чтения/записи. Потоковая передача работала нормально, когда события обрабатывались последовательно в микропакете. Мы разделяем конвейер на несколько частей с помощью фильтрованного запроса к концентратору событий. После этого конвейер неоднократно запускался с первого события в концентраторе событий после использования всех доступных событий в концентраторах событий. Каким-то образом он снова начинает потреблять данные с первого события, как только обрабатывает все события. Потоковый запрос основан на отфильтрованном наборе событий, и каждый отфильтрованный набор имеет отдельную контрольную точку и отдельный конвейер. В чем может быть причина такого поведения и как этого избежать?
startingOffset: "earliest"
failOnDataLoss:False
Ожидается, что контрольная точка останется на месте после использования всех событий и не перезапустится с первого доступного события, потребляя только новые события. Любые указания приветствуются.
Подробнее здесь: https://stackoverflow.com/questions/789 ... repeatedly
Задание потоковой передачи Synapse Spark начинает неоднократно использовать всю очередь ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как установить библиотеки Python в ноутбуке Synapse Synapse Cluster (Pyspark)
Anonymous » » в форуме Python - 0 Ответы
- 17 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как текущая очередь, очередь отправки и целевая очередь взаимодействуют друг с другом в GCD?
Anonymous » » в форуме IOS - 0 Ответы
- 103 Просмотры
-
Последнее сообщение Anonymous
-