Извлечение текста PDF в JavaJAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Извлечение текста PDF в Java

Сообщение Anonymous »

У меня есть PDF-файл, созданный с помощью iText и созданный с помощью JasperReports (я не знаю, актуально ли это), и мне интересно, смогу ли я найти какой-нибудь API или что-нибудь еще, чтобы увидеть структуру, потому что мне нужно извлечь текст из это.
  • Я пробовал использовать iText, PDFBox и другие библиотеки Java, но получаю текст только построчно, и это не то, что я делаю. нужно.
  • Я также пробовал конвертировать в HTML, XML, DOM, но получаю тот же результат при извлечении текста, без анализа структуры.
  • Если я попытаюсь открыть его как DOCX, я увижу, что Word распознает определенную структуру, например область, которая выглядит как таблица в PDF, после преобразования в DOCX это на самом деле таблица.
Мне нужно понять, как был создан PDF-файл, если это возможно. Я знаю, что работать с PDF-файлами непросто, но начать нужно с чего-то полезного. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/512 ... on-in-java
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»