Можем ли мы извлечь тексты между таблицами в PDF, используя Tabula в Java?JAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Можем ли мы извлечь тексты между таблицами в PDF, используя Tabula в Java?

Сообщение Anonymous »

Мне удалось извлечь таблицы с помощью Tabula. Я искал способы вывода текста между ними с помощью Tabula, но похоже, что это только для таблиц. Есть идеи, как это сделать?

public static List extractTablesFromPDF(PDDocument document) {
NurminenDetectionAlgorithm detectionAlgorithm = new NurminenDetectionAlgorithm();

ExtractionAlgorithm algExtractor;

SpreadsheetExtractionAlgorithm extractor=new SpreadsheetExtractionAlgorithm();

ObjectExtractor extractor = new ObjectExtractor(document);
PageIterator pages = extractor.extract();
List tables=new ArrayList();
while (pages.hasNext()) {
Page page = pages.next();
if (extractor.isTabular(page)) {
algExtractor=new SpreadsheetExtractionAlgorithm();
}
else
algExtractor=new BasicExtractionAlgorithm();

List tablesOnPage = detectionAlgorithm.detect(page);

for (Rectangle guessRect : tablesOnPage) {
Page guess = page.getArea(guessRect);
tables.addAll((List) algExtractor.extract(guess));
}

}

return tables;
}
< /code>

Заранее спасибо за вашу помощь! < /p>

Подробнее здесь: https://stackoverflow.com/questions/586 ... la-in-java
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»