Извлечение Python и разделение содержимого из файла PDF на основе идентификатора

Извлечение Python и разделение содержимого из файла PDF на основе идентификатора ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Извлечение Python и разделение содержимого из файла PDF на основе идентификатора

Цитата

Сообщение Anonymous » 05 дек 2024, 13:07

У меня есть файл PDF (образец скриншот прилагается) я хочу извлечь контент и разделить его в структурированный формат. список объектов, содержащих заголовок, содержание и сноски раздела 1, как и для каждого раздела. Я использую парсер tika и pdfplumber для извлечения текста. и это успешно. однако разделение содержания и сносок на основе ссылочных номеров невозможно. Может ли кто-нибудь сказать мне, как лучше всего это сделать? Я ищу безошибочный метод, при котором исходный текст не изменяется.

Подробнее здесь: https://stackoverflow.com/questions/792 ... identifier

1733393269

Anonymous


[img]https://i.sstatic.net/f51v0Zk6.png[/img]

У меня есть файл PDF (образец скриншот прилагается) я хочу извлечь контент и разделить его в структурированный формат. список объектов, содержащих заголовок, содержание и сноски раздела 1, как и для каждого раздела. Я использую парсер tika и pdfplumber для извлечения текста. и это успешно. однако разделение содержания и сносок на основе ссылочных номеров невозможно. Может ли кто-нибудь сказать мне, как лучше всего это сделать? Я ищу безошибочный метод, при котором исходный текст не изменяется. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79254196/pyhon-extract-and-split-content-from-pdf-file-based-on-identifier[/url]

Ответить

1 сообщение • Страница 1 из 1