Эффективное чтение файлов PDF/текста/слова с помощью SparkJAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Эффективное чтение файлов PDF/текста/слова с помощью Spark

Сообщение Anonymous »

Я выполняю обработку своих данных НЛП (обработкой естественного языка). Данные представлены в виде файлов типа PDF/Text/Word/HTML. Эти файлы хранятся во вложенной структуре каталогов на локальном диске.

Мой автономный анализатор NLP на основе Java может читать входные файлы, извлекать из них текст и выполнять обработку NLP на извлеченный текст.

Я конвертирую свой парсер NLP на основе Java для его выполнения в своем кластере Spark. Я знаю, что Spark может читать несколько текстовых файлов из каталога и преобразовывать их в RDD для дальнейшей обработки. Мои входные данные находятся не только в текстовых файлах, но и во множестве различных форматов файлов.

Мой вопрос: как я могу эффективно читать входные файлы (PDF/текст) /Word/HTML) в моей программе Spark на основе Java для обработки этих файлов в кластере Spark.

Подробнее здесь: https://stackoverflow.com/questions/440 ... with-spark
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»