Высокое потребление процессора Apache TikaApache

Ответить
Гость
 Высокое потребление процессора Apache Tika

Сообщение Гость »

Я использую Apache Tika ( https://tika.apache.org/index.html ) для извлечения текста из файлов PDF.
Сервис Tika показывает скачки загрузки процессора от 100 до 400 % в Linux. p>
Я попробовал Apache Tika 2.9.1 ( https://tika.apache.org/2.9.1/index.html ), это последняя стабильная версия tika.
Я наблюдал тот же всплеск загрузки ЦП в более старой версии Tika 1.20 ( https://tika.apache.org/1.20/index.html )
Я использую этот раздел кода для получения текста из PDF-файла -

Код: Выделить всё

  BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("Example.pdf"));
ParseContext pcontext = new ParseContext();

//parsing the document using PDF parser
PDFParser pdfparser = new PDFParser();
pdfparser.parse(inputstream, handler, metadata,pcontext);

//getting the content of the document
System.out.println("Contents of the PDF :" + handler.toString());
Может кто-нибудь помочь мне узнать, есть ли какой-либо параметр, который мы можем установить для уменьшения загрузки ЦП?

Подробнее здесь: https://stackoverflow.com/questions/781 ... pache-tika
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Apache»