Задание потоковой передачи Synapse Spark начинает неоднократно использовать всю очередь

Задание потоковой передачи Synapse Spark начинает неоднократно использовать всю очередь ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Задание потоковой передачи Synapse Spark начинает неоднократно использовать всю очередь

Цитата

Сообщение Anonymous » 29 сен 2024, 21:55

У меня есть конвейер потоковой передачи Spark в Azure Synapse, который постоянно прослушивает события. Это в основном код Python с потоком чтения/записи. Потоковая передача работала нормально, когда события обрабатывались последовательно в микропакете. Мы разделяем конвейер на несколько частей с помощью фильтрованного запроса к концентратору событий. После этого конвейер неоднократно запускался с первого события в концентраторе событий после использования всех доступных событий в концентраторах событий. Каким-то образом он снова начинает потреблять данные с первого события, как только обрабатывает все события. Потоковый запрос основан на отфильтрованном наборе событий, и каждый отфильтрованный набор имеет отдельную контрольную точку и отдельный конвейер. В чем может быть причина такого поведения и как этого избежать?
startingOffset: "earliest"
failOnDataLoss:False
Ожидается, что контрольная точка останется на месте после использования всех событий и не перезапустится с первого доступного события, потребляя только новые события. Любые указания приветствуются.

Подробнее здесь: https://stackoverflow.com/questions/789 ... repeatedly

1727636119

Anonymous

У меня есть конвейер потоковой передачи Spark в Azure Synapse, который постоянно прослушивает события. Это в основном код Python с потоком чтения/записи. Потоковая передача работала нормально, когда события обрабатывались последовательно в микропакете. Мы разделяем конвейер на несколько частей с помощью фильтрованного запроса к концентратору событий. После этого конвейер неоднократно запускался с первого события в концентраторе событий после использования всех доступных событий в концентраторах событий. Каким-то образом он снова начинает потреблять данные с первого события, как только обрабатывает все события. Потоковый запрос основан на отфильтрованном наборе событий, и каждый отфильтрованный набор имеет отдельную контрольную точку и отдельный конвейер. В чем может быть причина такого поведения и как этого избежать?
startingOffset: "earliest"
failOnDataLoss:False
Ожидается, что контрольная точка останется на месте после использования всех событий и не перезапустится с первого доступного события, потребляя только новые события. Любые указания приветствуются. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78931379/synapse-spark-streaming-job-starts-consuming-entire-queue-repeatedly[/url]

Ответить

1 сообщение • Страница 1 из 1