Вернуть текстовую строку из физических координат в PDF-файле с помощью PythonPython

Программы на Python
Ответить
Anonymous
 Вернуть текстовую строку из физических координат в PDF-файле с помощью Python

Сообщение Anonymous »

Последние несколько часов я боролся с Google и ограниченной документацией PDFMiner, и, хотя я чувствую, что близок к этому, я просто не получаю того, что мне нужно. Я просмотрел http://www.unixuser.org/~euske/python/pdfminer/ и все три видеоролика на YouTube, чтобы лучше понять PDF-файлы, и я могу отлично выводить необработанный текст.

Я работаю над сценарием для анализа нескольких страниц PDF. К сожалению, в этом проекте я имею дело с PDF-файлами низкого качества, и единственная надежная константа, которую я вижу, — это одно и то же физическое расположение текстовых строк. Хотя я читал намеки на то, что текстовые строки можно извлекать по физическим координатам, мне еще предстоит увидеть работающий пример.

Есть ли кто-нибудь, кто мог бы пролить свет на то, как это делается с помощью PDFMiner? Я открыт для других модулей, если есть очевидный лучший выбор, однако мне нужно придерживаться Python для сценария.

Кроме того, я пробовал PyPdf, но безуспешно (кроме базового вывода текста).

Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/934 ... ith-python
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»