Извлечение Python и разделение содержимого из файла PDF на основе идентификатора

Извлечение Python и разделение содержимого из файла PDF на основе идентификатора ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Извлечение Python и разделение содержимого из файла PDF на основе идентификатора

Цитата

Сообщение Anonymous » 08 дек 2024, 21:27

У меня есть файл PDF (образец скриншот прилагается) я хочу извлечь контент и разделить его в структурированный формат. список объектов, содержащих заголовок, содержание и сноски раздела 1, как и для каждого раздела. Я использую парсер tika и pdfplumber для извлечения текста. и это успешно. но разделение содержания и сносок на основе ссылочных номеров невозможно. Может ли кто-нибудь сказать мне, как лучше всего это сделать? Я ищу безошибочный метод, при котором исходный текст не изменяется.
Ожидаемый формат вывода:
[{"section_number ": "1.Краткое название, объем и начало", "section_content": "(1) Этот Закон может называться Законом о подоходном налоге 1961 года.\n(2) Оно распространяется на всю Индия.2\n(3) За исключением случаев, предусмотренных настоящим Законом, он вступает в силу 1-го\nапреля 1962 года.",

"сноски" >: «2 Закон о подоходном налоге 1961 года применяется к штату Сикким начиная с предыдущего года\nприменительно к налоговому году, начинающемуся 1 апреля 1990 года: см. раздел 26. Закона о финансах 1989 года, отменяющего действие Уведомлений № SO 1028(E) от 11 июля 1988 года и SO 148(E) от 23 февраля 1989 года. Срок действия Закона также был продлен. на континентальный шельф Индии, см. уведомление № GSR 304(E) от 31 марта 1983 г., воспроизведено. в\nСправочнике Бхараты по прямым налогам."},...

Подробнее здесь: https://stackoverflow.com/questions/792 ... identifier

1733682431

Anonymous


[img]https://i.sstatic.net/f51v0Zk6.png[/img]

У меня есть файл PDF (образец скриншот прилагается) я хочу извлечь контент и разделить его в структурированный формат. список объектов, содержащих заголовок, содержание и сноски раздела 1, как и для каждого раздела. Я использую парсер tika и pdfplumber для извлечения текста. и это успешно. но разделение содержания и сносок на основе ссылочных номеров невозможно. Может ли кто-нибудь сказать мне, как лучше всего это сделать? Я ищу безошибочный метод, при котором исходный текст не изменяется.
Ожидаемый формат [b]вывода[/b]:
[{[b]"section_number "[/b]: "1.Краткое название, объем и начало", [b]"section_content"[/b]: "(1) Этот Закон может называться Законом о подоходном налоге 1961 года.\n(2) Оно распространяется на всю Индия.2\n(3) За исключением случаев, предусмотренных настоящим Законом, он вступает в силу 1-го\nапреля 1962 года.",

[b]"сноски"[/b] >: «2 Закон о подоходном налоге 1961 года применяется к штату Сикким начиная с предыдущего года\nприменительно к налоговому году, начинающемуся 1 апреля 1990 года: см. раздел 26. Закона о финансах 1989 года, отменяющего действие Уведомлений № SO 1028(E) от 11 июля 1988 года и SO 148(E) от 23 февраля 1989 года. Срок действия Закона также был продлен. на континентальный шельф Индии, см. уведомление № GSR 304(E) от 31 марта 1983 г., воспроизведено. в\nСправочнике Бхараты по прямым налогам."},...
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79254196/pyhon-extract-and-split-content-from-pdf-file-based-on-identifier[/url]

Ответить

1 сообщение • Страница 1 из 1