
У меня есть файл PDF (образец скриншот прилагается) я хочу извлечь контент и разделить его в структурированный формат. список объектов, содержащих заголовок, содержание и сноски раздела 1, как и для каждого раздела. Я использую парсер tika и pdfplumber для извлечения текста. и это успешно. но разделение содержания и сносок на основе ссылочных номеров невозможно. Может ли кто-нибудь сказать мне, как лучше всего это сделать? Я ищу безошибочный метод, при котором исходный текст не изменяется.
Ожидаемый формат вывода:
[{"section_number ": "1.Краткое название, объем и начало", "section_content": "(1) Этот Закон может называться Законом о подоходном налоге 1961 года.\n(2) Оно распространяется на всю Индия.2\n(3) За исключением случаев, предусмотренных настоящим Законом, он вступает в силу 1-го\nапреля 1962 года.",
"сноски" >: «2 Закон о подоходном налоге 1961 года применяется к штату Сикким начиная с предыдущего года\nприменительно к налоговому году, начинающемуся 1 апреля 1990 года: см. раздел 26. Закона о финансах 1989 года, отменяющего действие Уведомлений № SO 1028(E) от 11 июля 1988 года и SO 148(E) от 23 февраля 1989 года. Срок действия Закона также был продлен. на континентальный шельф Индии, см. уведомление № GSR 304(E) от 31 марта 1983 г., воспроизведено. в\nСправочнике Бхараты по прямым налогам."},...
Подробнее здесь: https://stackoverflow.com/questions/792 ... identifier
Мобильная версия