Я разрабатываю приложение структурированной потоковой передачи Apache Spark, которому необходимо сначала обработать исторические данные, хранящиеся в виде файлов Avro (это архивные файлы Kafka) в HDFS, а затем, когда они будут полностью завершены, перейти к обработке данных в реальном времени из Kafka. тема. Мне нужен отказоустойчивый дизайн для реализации этого сценария.
Первый подход, который я имею в виду:
- Чтение файлов Avro: я использую spark.read.format("avro").load("hdfs://...") для загрузки файлов Avro.
Переключение на потоковую передачу Kafka: Я настраиваю потоковую передачу Kafka с помощью readStream.format("kafka")....
Однако я не уверен, как обеспечить отказоустойчивость этого процесса.
Как бы вы выполнили подобную задачу?
Подробнее здесь:
https://stackoverflow.com/questions/783 ... -streaming