Извлечение текста из PDF с использованием пользовательского шрифтаPython

Программы на Python
Ответить
Anonymous
 Извлечение текста из PDF с использованием пользовательского шрифта

Сообщение Anonymous »

У меня есть объемный PDF-файл, содержащий текст со специальными научными обозначениями. Я пытаюсь извлечь текст с помощью pdfplumber.
Сначала я заметил, что некоторые символы извлекаются как заглавные латинские символы, а технические символы, такие как '[' и коды например, (cid:8) также присутствуют. Более того, один и тот же код часто отображается в файле разными символами. Я решил эту проблему, собрав не только текстовое представление каждого символа, но и название шрифта.
Однако теперь мне интересно, можно ли извлечь кодировку непосредственно из PDF-файла файл. Я имею в виду получение информации в формате: {'symbol': 'e', ​​'font': 'ejdeij+4brane', отображаемой как-то.
Вот пример PDF-файла. . Как вы можете видеть, ('(cid:8)', 'EJDEHH+6Brane') здесь означает ḁ̃. Все, что я хочу знать, это можно ли не проверять каждую пару вручную. Эта информация должна находиться где-то глубоко в структуре файла, и я ищу способ ее извлечь.

Подробнее здесь: https://stackoverflow.com/questions/790 ... ustom-font
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»