Высокое потребление процессора Apache TikaApache

Гость
Высокое потребление процессора Apache Tika

Сообщение Гость »

Я использую Apache Tika ( https://tika.apache.org/index.html ) для извлечения текста из файлов PDF.
Сервис Tika показывает скачки загрузки процессора от 100 до 400 % в Linux. p>
Я попробовал Apache Tika 2.9.1 ( https://tika.apache.org/2.9.1/index.html ), это последняя стабильная версия tika.
Я наблюдал тот же всплеск загрузки ЦП в более старой версии Tika 1.20 ( https://tika.apache.org/1.20/index.html )
Я использую этот раздел кода для получения текста из PDF-файла -

Код: Выделить всё

  BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("Example.pdf"));
ParseContext pcontext = new ParseContext();

//parsing the document using PDF parser
PDFParser pdfparser = new PDFParser();
pdfparser.parse(inputstream, handler, metadata,pcontext);

//getting the content of the document
System.out.println("Contents of the PDF :" + handler.toString());
Может кто-нибудь помочь мне узнать, есть ли какой-либо параметр, который мы можем установить для уменьшения загрузки ЦП?

Подробнее здесь: https://stackoverflow.com/questions/781 ... pache-tika

Вернуться в «Apache»