Извлечение Python и разделение содержимого из файла PDF на основе идентификатораPython

Программы на Python
Ответить
Anonymous
 Извлечение Python и разделение содержимого из файла PDF на основе идентификатора

Сообщение Anonymous »


Изображение

У меня есть файл PDF (образец скриншот прилагается) я хочу извлечь контент и разделить его в структурированный формат. список объектов, содержащих заголовок, содержание и сноски раздела 1, как и для каждого раздела. Я использую парсер tika и pdfplumber для извлечения текста. и это успешно. однако разделение содержания и сносок на основе ссылочных номеров невозможно. Может ли кто-нибудь сказать мне, как лучше всего это сделать? Я ищу безошибочный метод, при котором исходный текст не изменяется.

Подробнее здесь: https://stackoverflow.com/questions/792 ... identifier
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»