Как извлечь все главы из PDF в список с использованием PDFBox Apache?JAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Как извлечь все главы из PDF в список с использованием PDFBox Apache?

Сообщение Anonymous »

Я пытаюсь извлечь текст из PDF и заполнить все главы (или разделы) в список в Java. Я хочу, чтобы каждая глава в качестве отдельного элемента в списке. < /P>
Я использую Apache Pdfbox. Я могу извлечь весь текст, используя pdftextStripper, но я не уверен, как разделить его на главы. У моего PDF есть заголовки, такие как «Глава 1», «Глава 2» и т. Д. < /p>
Что я пробовал: < /p>
PDDocument document = PDDocument.load(new File("example.pdf"));
PDFTextStripper pdfStripper = new PDFTextStripper();
String text = pdfStripper.getText(document);
document.close();
System.out.println(text);
< /code>
Это дает мне весь текст, но я хочу что -то вроде: < /p>
List chapters = ["Chapter 1 text...", "Chapter 2 text...", ...];


Подробнее здесь: https://stackoverflow.com/questions/797 ... che-pdfbox
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»