Как точно извлечь многостраничные ответы (включая текст, формулы) с несовместимой нумерацией из PDF-файлов и получить ск

Как точно извлечь многостраничные ответы (включая текст, формулы) с несовместимой нумерацией из PDF-файлов и получить ск ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как точно извлечь многостраничные ответы (включая текст, формулы) с несовместимой нумерацией из PDF-файлов и получить ск

Цитата

Сообщение Anonymous » 09 апр 2025, 01:44

Я работаю над задачей, включающей большое количество файлов PDF. Эти PDF содержат ответы на вопросы из различных предметов, таких как математика, физика, химия, статистика и т. Д. Мне нужно извлечь каждый полный ответ в виде изображения или набора изображений. Они часто содержат сложные математические формулы, графики, диаграммы и другие изображения.
Структура переменной: макет содержимого значительно варьируется. Ответы могут быть простыми текстовыми абзацами, структурированными в таблицах или миксе. Это может быть 1, 1., Q1, Q1., Ответ 1 и т. Д. Нумерация может появиться в начале строки, отступаемого или в другом месте.
Границы ответов: трудно надежно определить, где заканчивается один ответ, а следующий начинается, особенно с тех пор, как:
Ответ может охватывать несколько страниц.
На одну страницу может содержать несколько ответов. (Например, A, B, C; точки пуль), которые следует считать частью основного ответа.
Ограничения инструмента: я пытался использовать библиотеку Python Pymupdf (FITZ) для извлечения контента. Несмотря на то, что он работает достаточно хорошо для простого текста, он не может правильно распознать или извлекать сложные математические формулы и графические элементы, часто делая их неправильно или упустить их. Даже если он охватывает несколько страниц.
для каждой страницы, на которой появляется ответ, определите точные координаты ограничивающего окна, которые охватывают все части ответа, присутствующего на этой странице. (Например, ответ на ответ на страницу 5 и стр. 6 должен привести к двум отдельным скриншотам изображения).
Вопрос: 
Какие надежные подходы, библиотеки (предпочтительно на основе Python), алгоритмы или даже внешние инструменты /API, которые могут эффективно обрабатывать эти проблемы? Я ищу решения, которые могут: 
Секции PDF-компоновки PDF.

/> Я открыт для предложений, включающих OCR, компьютерное зрение, модели анализа компоновки документов или любые другие соответствующие методы.
Пример 
Пример 

Подробнее здесь: https://stackoverflow.com/questions/795 ... s-with-inc

1744152284

Anonymous

/> Я открыт для предложений, включающих OCR, компьютерное зрение, модели анализа компоновки документов или любые другие соответствующие методы.
Пример 
Пример

Подробнее здесь: [url]https://stackoverflow.com/questions/79563170/how-to-accurately-extract-multi-page-answers-including-text-formulas-with-inc[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как точно извлечь многостраничные ответы (включая текст, формулы) с несовместимой нумерацией из PDF-файлов и получить ск

Последнее сообщение Anonymous « 09 апр 2025, 04:24
Добавлено в форуме Python

Anonymous » 09 апр 2025, 04:24 » в форуме Python

Я работаю над задачей, включающей большое количество файлов PDF. Эти PDF содержат ответы на вопросы из различных предметов, таких как математика, физика, химия, статистика и т. Д. Мне нужно извлечь каждый полный ответ в виде изображения или набора...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
09 апр 2025, 04:24
Как я могу вернуть референтный диапазон формулы формулы?

Последнее сообщение Anonymous « 25 июл 2025, 04:15
Добавлено в форуме Javascript

Anonymous » 25 июл 2025, 04:15 » в форуме Javascript

Я пытаюсь вернуть диапазон, который я получил результаты с помощью формулы Via Cell с эквивалентом скрипта приложения, чтобы я мог, в свою очередь, перевернуть массив различными значениями. =FILTER( FILTER($10:$500, Beginning_Date = Date_Range,...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
25 июл 2025, 04:15
Как я могу точно извлечь корейский текст из PDF-файлов на основе изображений для использования с LLMS? [закрыто]

Последнее сообщение Anonymous « 29 май 2025, 10:31
Добавлено в форуме Python

Anonymous » 29 май 2025, 10:31 » в форуме Python

Я студент университета в настоящее время веду проект AI (LLM) в моей школе. Моя цель - извлечь этот текст и сохранить его в векторной базе данных для использования с большой языковой моделью (LLM). Тем не менее, я сталкиваюсь с серьезными проблемами...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
29 май 2025, 10:31
Как извлечь текст из PDF-файлов, включая все пробелы

Последнее сообщение Anonymous « 17 дек 2024, 13:03
Добавлено в форуме Python

Anonymous » 17 дек 2024, 13:03 » в форуме Python

Я пытаюсь создать код для извлечения текста из PDF-файлов и помещения его в базу данных. Для этого я использую Extract_text().
Однако по какой-то причине некоторые пробелы между словами исчезают (например, Australian Shiraz Challenge -->...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 13:03
Как извлечь текст из PDF-файлов, включая все пробелы

Последнее сообщение Anonymous « 17 дек 2024, 13:27
Добавлено в форуме Python

Anonymous » 17 дек 2024, 13:27 » в форуме Python

Я пытаюсь создать код для извлечения текста из PDF-файлов и помещения его в базу данных. Для этого я использую Extract_text().
Однако по какой-то причине некоторые пробелы между словами исчезают (например, Australian Shiraz Challenge -->...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 13:27

Вернуться в «Python»