Эффективное чтение файлов PDF/текста/слова с помощью Spark

Эффективное чтение файлов PDF/текста/слова с помощью Spark ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Эффективное чтение файлов PDF/текста/слова с помощью Spark

Цитата

Сообщение Anonymous » 07 дек 2024, 09:43

Я выполняю обработку своих данных НЛП (обработкой естественного языка). Данные представлены в виде файлов типа PDF/Text/Word/HTML. Эти файлы хранятся во вложенной структуре каталогов на локальном диске.

Мой автономный анализатор NLP на основе Java может читать входные файлы, извлекать из них текст и выполнять обработку NLP на извлеченный текст.

Я конвертирую свой парсер NLP на основе Java для его выполнения в своем кластере Spark. Я знаю, что Spark может читать несколько текстовых файлов из каталога и преобразовывать их в RDD для дальнейшей обработки. Мои входные данные находятся не только в текстовых файлах, но и во множестве различных форматов файлов.

Мой вопрос: как я могу эффективно читать входные файлы (PDF/текст) /Word/HTML) в моей программе Spark на основе Java для обработки этих файлов в кластере Spark.

Подробнее здесь: https://stackoverflow.com/questions/440 ... with-spark

1733553820

Anonymous

Мой автономный анализатор NLP на основе Java может читать входные файлы, извлекать из них текст и выполнять обработку NLP на извлеченный текст.

Я конвертирую свой парсер NLP на основе Java для его выполнения в своем кластере Spark. Я знаю, что Spark может читать несколько текстовых файлов из каталога и преобразовывать их в RDD для дальнейшей обработки. Мои входные данные находятся не только в текстовых файлах, но и во множестве различных форматов файлов.

Мой вопрос: как я могу эффективно читать входные файлы (PDF/текст) /Word/HTML) в моей программе Spark на основе Java для обработки этих файлов в кластере Spark.

Подробнее здесь: [url]https://stackoverflow.com/questions/44082398/reading-pdf-text-word-file-efficiently-with-spark[/url]

Ответить

1 сообщение • Страница 1 из 1