У меня есть PDF-файл, созданный с помощью iText и созданный с помощью JasperReports (я не знаю, актуально ли это), и мне интересно, смогу ли я найти какой-нибудь API или что-нибудь еще, чтобы увидеть структуру, потому что мне нужно извлечь текст из это.
Я пробовал использовать iText, PDFBox и другие библиотеки Java, но получаю текст только построчно, и это не то, что я делаю. нужно.
Я также пробовал конвертировать в HTML, XML, DOM, но получаю тот же результат при извлечении текста, без анализа структуры.
Если я попытаюсь открыть его как DOCX, я увижу, что Word распознает определенную структуру, например область, которая выглядит как таблица в PDF, после преобразования в DOCX это на самом деле таблица.
Мне нужно понять, как был создан PDF-файл, если это возможно. Я знаю, что работать с PDF-файлами непросто, но начать нужно с чего-то полезного. Спасибо!
У меня есть PDF-файл, созданный с помощью iText и созданный с помощью JasperReports (я не знаю, актуально ли это), и мне интересно, смогу ли я найти какой-нибудь API или что-нибудь еще, чтобы увидеть структуру, потому что мне нужно извлечь текст из это.
[list] [*]Я пробовал использовать iText, PDFBox и другие библиотеки Java, но получаю текст только построчно, и [b]это не то, что я делаю. нужно[/b]. [*]Я также пробовал конвертировать в HTML, XML, DOM, но получаю тот же результат при извлечении текста, без анализа структуры. [*]Если я попытаюсь открыть его как DOCX, я увижу, что Word распознает определенную структуру, например область, которая выглядит как таблица в PDF, после преобразования в DOCX это на самом деле таблица. [/list]
Мне нужно понять, как был создан PDF-файл, если это возможно. Я знаю, что работать с PDF-файлами непросто, но начать нужно с чего-то полезного. Спасибо!