Захват аннотаций с помощью PDFTextStripper

Захват аннотаций с помощью PDFTextStripper ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Захват аннотаций с помощью PDFTextStripper

Цитата

Сообщение Anonymous » 25 янв 2025, 04:07

Я использую pdftextStripper (3.0.3), чтобы взять текст из PDF для разбора документов для пользовательского процесса. Чтобы правильно понять документ, мне нужно, чтобы текст был в порядке. Подумайте о таблицах и столбцах, например, заголовки должны быть до данных о таблице.

Код: Выделить всё

        try (PDDocument document = Loader.loadPDF(file)) {
final PDFTextStripper pdfStripper = new PDFTextStripper();
pdfStripper.setSortByPosition(true);

text = pdfStripper.getText(document);
}

Я недавно столкнулся с документом, в котором большая часть текста, который я хотел захватить, не была предоставлена PdftextStripper . Когда я открываю PDF в Adobe, текст отображается и может быть скопирован в виде текста. После долгих отладки я узнал, что текст хранится на самом деле в аннотациях страниц. Я не нашел ничего, что говорит о том, как заставить утилиту, включать аннотации. Мне нужно, чтобы текст появился в порядке с другими текстами (по положению) и не могу просто извлечь их отдельно.

Подробнее здесь: https://stackoverflow.com/questions/793 ... xtstripper

1737767229

Anonymous

 Я использую pdftextStripper  (3.0.3), чтобы взять текст из PDF для разбора документов для пользовательского процесса. Чтобы правильно понять документ, мне нужно, чтобы текст был в порядке. Подумайте о таблицах и столбцах, например, заголовки должны быть до данных о таблице.[code]        try (PDDocument document = Loader.loadPDF(file)) {
final PDFTextStripper pdfStripper = new PDFTextStripper();
pdfStripper.setSortByPosition(true);

text = pdfStripper.getText(document);
}
[/code]
Я недавно столкнулся с документом, в котором большая часть текста, который я хотел захватить, не была предоставлена PdftextStripper . Когда я открываю PDF в Adobe, текст отображается и может быть скопирован в виде текста. После долгих отладки я узнал, что текст хранится на самом деле в аннотациях страниц. Я не нашел ничего, что говорит о том, как заставить утилиту, включать аннотации. Мне нужно, чтобы текст появился в порядке с другими текстами (по положению) и не могу просто извлечь их отдельно.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79386018/capture-annotations-with-pdftextstripper[/url]

Ответить

1 сообщение • Страница 1 из 1