Извлечение Python и разделение содержимого из файла PDF на основе идентификатораPython

Программы на Python
Ответить
Anonymous
 Извлечение Python и разделение содержимого из файла PDF на основе идентификатора

Сообщение Anonymous »


Изображение

У меня есть файл PDF (образец скриншот прилагается) я хочу извлечь контент и разделить его в структурированный формат. список объектов, содержащих заголовок, содержание и сноски раздела 1, как и для каждого раздела. Я использую парсер tika и pdfplumber для извлечения текста. и это успешно. но разделение содержания и сносок на основе ссылочных номеров невозможно. Может ли кто-нибудь сказать мне, как лучше всего это сделать? Я ищу безошибочный метод, при котором исходный текст не изменяется.
Ожидаемый формат вывода:
[{"section_number ": "1.Краткое название, объем и начало", "section_content": "(1) Этот Закон может называться Законом о подоходном налоге 1961 года.\n(2) Оно распространяется на всю Индия.2\n(3) За исключением случаев, предусмотренных настоящим Законом, он вступает в силу 1-го\nапреля 1962 года.",

"сноски" >: «2 Закон о подоходном налоге 1961 года применяется к штату Сикким начиная с предыдущего года\nприменительно к налоговому году, начинающемуся 1 апреля 1990 года: см. раздел 26. Закона о финансах 1989 года, отменяющего действие Уведомлений № SO 1028(E) от 11 июля 1988 года и SO 148(E) от 23 февраля 1989 года. Срок действия Закона также был продлен. на континентальный шельф Индии, см. уведомление № GSR 304(E) от 31 марта 1983 г., воспроизведено. в\nСправочнике Бхараты по прямым налогам."},...


Подробнее здесь: https://stackoverflow.com/questions/792 ... identifier
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»