Я использую pdftextStripper (3.0.3), чтобы взять текст из PDF для разбора документов для пользовательского процесса. Чтобы правильно понять документ, мне нужно, чтобы текст был в порядке. Подумайте о таблицах и столбцах, например, заголовки должны быть до данных о таблице.
Код: Выделить всё
try (PDDocument document = Loader.loadPDF(file)) {
final PDFTextStripper pdfStripper = new PDFTextStripper();
pdfStripper.setSortByPosition(true);
text = pdfStripper.getText(document);
}
Я недавно столкнулся с документом, в котором большая часть текста, который я хотел захватить, не была предоставлена PdftextStripper . Когда я открываю PDF в Adobe, текст отображается и может быть скопирован в виде текста. После долгих отладки я узнал, что текст хранится на самом деле в аннотациях страниц. Я не нашел ничего, что говорит о том, как заставить утилиту, включать аннотации. Мне нужно, чтобы текст появился в порядке с другими текстами (по положению) и не могу просто извлечь их отдельно.
Подробнее здесь:
https://stackoverflow.com/questions/793 ... xtstripper