Последовательное переключение источника с использованием структурированной потоковой передачи

Последовательное переключение источника с использованием структурированной потоковой передачи ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Последовательное переключение источника с использованием структурированной потоковой передачи

Цитата

Сообщение Anonymous » 23 апр 2024, 02:45

Я разрабатываю приложение структурированной потоковой передачи Apache Spark, которому необходимо сначала обработать исторические данные, хранящиеся в виде файлов Avro (это архивные файлы Kafka) в HDFS, а затем, когда они будут полностью завершены, перейти к обработке данных в реальном времени из Kafka. тема. Мне нужен отказоустойчивый дизайн для реализации этого сценария.
Первый подход, который я имею в виду:

Чтение файлов Avro: я использую spark.read.format("avro").load("hdfs://...") для загрузки файлов Avro.
Переключение на потоковую передачу Kafka: Я настраиваю потоковую передачу Kafka с помощью readStream.format("kafka")....

Однако я не уверен, как обеспечить отказоустойчивость этого процесса.
Как бы вы выполнили подобную задачу?

Подробнее здесь: https://stackoverflow.com/questions/783 ... -streaming

1713829528

Anonymous

Я разрабатываю приложение структурированной потоковой передачи Apache Spark, которому необходимо сначала обработать исторические данные, хранящиеся в виде файлов Avro (это архивные файлы Kafka) в HDFS, а затем, когда они будут полностью завершены, перейти к обработке данных в реальном времени из Kafka. тема. Мне нужен отказоустойчивый дизайн для реализации этого сценария.
Первый подход, который я имею в виду:
[list]
[*][b]Чтение файлов Avro:[/b] я использую spark.read.format("avro").load("hdfs://...") для загрузки файлов Avro.
[b]Переключение на потоковую передачу Kafka:[/b] Я настраиваю потоковую передачу Kafka с помощью readStream.format("kafka")....
[/list]
Однако я не уверен, как обеспечить отказоустойчивость этого процесса.
Как бы вы выполнили подобную задачу? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78349549/sequential-source-switching-using-structured-streaming[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Последовательное переключение источника с использованием структурированной потоковой передачи

Последнее сообщение Anonymous « 23 апр 2024, 02:45
Добавлено в форуме Python

Anonymous » 23 апр 2024, 02:45 » в форуме Python

Я разрабатываю приложение структурированной потоковой передачи Apache Spark, которому необходимо сначала обработать исторические данные, хранящиеся в виде файлов Avro (это архивные файлы Kafka) в HDFS, а затем, когда они будут полностью завершены,...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
23 апр 2024, 02:45
Использование PipeStream для передачи потока ответов для ведения журнала без потери эффекта потоковой передачи для конеч

Последнее сообщение Anonymous « 03 май 2024, 06:06
Добавлено в форуме C#

Anonymous » 03 май 2024, 06:06 » в форуме C#

У меня есть конечная точка, которая передает List как IAsyncEnumerable в ответе, и поэтому при использовании в браузере ответ загружается с эффектом потоковой передачи по мере записи данных в поток ответа.
Теперь у меня также есть сквозное...

0 Ответы

91 Просмотры

Последнее сообщение Anonymous
03 май 2024, 06:06
Чтение из публикации/подписки и запись в Firestore (собственный) с использованием потоковой передачи Beam Dataflow (pyth

Последнее сообщение Anonymous « 04 дек 2023, 09:23
Добавлено в форуме Python

Anonymous » 04 дек 2023, 09:23 » в форуме Python

Я читаю из публикации/подписки, используя скользящие окна Dataflow, применяю некоторые преобразования перед созданием сущностей и записываю в собственный формат Firestore. Я вижу, что луч не поддерживает встроенную библиотеку ввода-вывода Firestore,...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
04 дек 2023, 09:23
Приложение потоковой передачи чата в реальном времени с использованием SignalR на C# и Angular

Последнее сообщение Anonymous « 03 янв 2024, 09:38
Добавлено в форуме C#

Anonymous » 03 янв 2024, 09:38 » в форуме C#

Я разрабатываю приложение для чата, используя C# и Angular. Мой контроллер на C# имеет специальный алгоритм генерации текста, который генерирует ответ на основе пользовательского ввода из внешнего интерфейса. Этот ответ генерируется частями. Я хочу...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
03 янв 2024, 09:38
Проблема нехватки памяти при запуске конвейера потоковой передачи лучей с использованием потока данных gcp с Kafka в кач

Последнее сообщение Anonymous « 26 сен 2024, 20:16
Добавлено в форуме Python

Anonymous » 26 сен 2024, 20:16 » в форуме Python

Я пытаюсь настроить конвейер потоковой передачи данных в Python, где источником является kafka, а приемником — таблица postgres (см. код моего конвейера ниже). Тема Kafka имеет несколько разделов с несколькими брокерами. Когда я запускаю этот...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 20:16

Вернуться в «JAVA»