Извлечение текста PDF в Java - Цифровое Кемерово

Извлечение текста PDF в Java ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 04 янв 2025, 02:13

У меня есть PDF-файл, созданный с помощью iText и созданный с помощью JasperReports (я не знаю, актуально ли это), и мне интересно, смогу ли я найти какой-нибудь API или что-нибудь еще, чтобы увидеть структуру, потому что мне нужно извлечь текст из это.

Я пробовал использовать iText, PDFBox и другие библиотеки Java, но получаю текст только построчно, и это не то, что я делаю. нужно.
Я также пробовал конвертировать в HTML, XML, DOM, но получаю тот же результат при извлечении текста, без анализа структуры.
Если я попытаюсь открыть его как DOCX, я увижу, что Word распознает определенную структуру, например область, которая выглядит как таблица в PDF, после преобразования в DOCX это на самом деле таблица.

Мне нужно понять, как был создан PDF-файл, если это возможно. Я знаю, что работать с PDF-файлами непросто, но начать нужно с чего-то полезного. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/512 ... on-in-java

1735946037

Anonymous

У меня есть PDF-файл, созданный с помощью iText и созданный с помощью JasperReports (я не знаю, актуально ли это), и мне интересно, смогу ли я найти какой-нибудь API или что-нибудь еще, чтобы увидеть структуру, потому что мне нужно извлечь текст из это.

[list]
[*]Я пробовал использовать iText, PDFBox и другие библиотеки Java, но получаю текст только построчно, и [b]это не то, что я делаю. нужно[/b].
[*]Я также пробовал конвертировать в HTML, XML, DOM, но получаю тот же результат при извлечении текста, без анализа структуры.
[*]Если я попытаюсь открыть его как DOCX, я увижу, что Word распознает определенную структуру, например область, которая выглядит как таблица в PDF, после преобразования в DOCX это на самом деле таблица.
[/list]

Мне нужно понять, как был создан PDF-файл, если это возможно. Я знаю, что работать с PDF-файлами непросто, но начать нужно с чего-то полезного. Спасибо!  

Подробнее здесь: [url]https://stackoverflow.com/questions/51280262/pdf-text-extraction-in-java[/url]