Захват аннотаций с помощью PDFTextStripperJAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Захват аннотаций с помощью PDFTextStripper

Сообщение Anonymous »

Я использую pdftextStripper (3.0.3), чтобы взять текст из PDF для разбора документов для пользовательского процесса. Чтобы правильно понять документ, мне нужно, чтобы текст был в порядке. Подумайте о таблицах и столбцах, например, заголовки должны быть до данных о таблице.

Код: Выделить всё

        try (PDDocument document = Loader.loadPDF(file)) {
final PDFTextStripper pdfStripper = new PDFTextStripper();
pdfStripper.setSortByPosition(true);

text = pdfStripper.getText(document);
}
Я недавно столкнулся с документом, в котором большая часть текста, который я хотел захватить, не была предоставлена ​​PdftextStripper . Когда я открываю PDF в Adobe, текст отображается и может быть скопирован в виде текста. После долгих отладки я узнал, что текст хранится на самом деле в аннотациях страниц. Я не нашел ничего, что говорит о том, как заставить утилиту, включать аннотации. Мне нужно, чтобы текст появился в порядке с другими текстами (по положению) и не могу просто извлечь их отдельно.

Подробнее здесь: https://stackoverflow.com/questions/793 ... xtstripper
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»