Сервис Tika показывает скачки загрузки процессора от 100 до 400 % в Linux. p>
Я попробовал Apache Tika 2.9.1 ( https://tika.apache.org/2.9.1/index.html ), это последняя стабильная версия tika.
Я наблюдал тот же всплеск загрузки ЦП в более старой версии Tika 1.20 ( https://tika.apache.org/1.20/index.html )
Я использую этот раздел кода для получения текста из PDF-файла -
Код: Выделить всё
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("Example.pdf"));
ParseContext pcontext = new ParseContext();
//parsing the document using PDF parser
PDFParser pdfparser = new PDFParser();
pdfparser.parse(inputstream, handler, metadata,pcontext);
//getting the content of the document
System.out.println("Contents of the PDF :" + handler.toString());
Подробнее здесь: https://stackoverflow.com/questions/781 ... pache-tika