Как точно извлечь многостраничные ответы (включая текст, формулы) с несовместимой нумерацией из PDF-файлов и получить скPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как точно извлечь многостраничные ответы (включая текст, формулы) с несовместимой нумерацией из PDF-файлов и получить ск

Сообщение Anonymous »

Я работаю над задачей, включающей большое количество файлов PDF. Эти PDF содержат ответы на вопросы из различных предметов, таких как математика, физика, химия, статистика и т. Д. Мне нужно извлечь каждый полный ответ в виде изображения или набора изображений. Они часто содержат сложные математические формулы, графики, диаграммы и другие изображения.
Структура переменной: макет содержимого значительно варьируется. Ответы могут быть простыми текстовыми абзацами, структурированными в таблицах или миксе. Это может быть 1, 1., Q1, Q1., Ответ 1 и т. Д. Нумерация может появиться в начале строки, отступаемого или в другом месте.
Границы ответов: трудно надежно определить, где заканчивается один ответ, а следующий начинается, особенно с тех пор, как:
Ответ может охватывать несколько страниц.
На одну страницу может содержать несколько ответов. (Например, A, B, C; точки пуль), которые следует считать частью основного ответа.
Ограничения инструмента: я пытался использовать библиотеку Python Pymupdf (FITZ) для извлечения контента. Несмотря на то, что он работает достаточно хорошо для простого текста, он не может правильно распознать или извлекать сложные математические формулы и графические элементы, часто делая их неправильно или упустить их. Даже если он охватывает несколько страниц.
для каждой страницы, на которой появляется ответ, определите точные координаты ограничивающего окна, которые охватывают все части ответа, присутствующего на этой странице. (Например, ответ на ответ на страницу 5 и стр. 6 должен привести к двум отдельным скриншотам изображения).
Вопрос: < /p>
Какие надежные подходы, библиотеки (предпочтительно на основе Python), алгоритмы или даже внешние инструменты /API, которые могут эффективно обрабатывать эти проблемы? Я ищу решения, которые могут: < /p>
Секции PDF-компоновки PDF.

/> Я открыт для предложений, включающих OCR, компьютерное зрение, модели анализа компоновки документов или любые другие соответствующие методы.
Пример < /p>
Пример < /p>

Подробнее здесь: https://stackoverflow.com/questions/795 ... s-with-inc
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»