Как точно извлечь заголовок, заголовки и подзаголовки из исследовательских статей в формате PDF?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как точно извлечь заголовок, заголовки и подзаголовки из исследовательских статей в формате PDF?

Сообщение Anonymous »

Я пытаюсь извлечь заголовок, заголовки и подзаголовки из научных статей в формате PDF. Я пробовал различные подходы, но не смог получить точных результатов. Вот шаги, которые я предпринял:
1. Пробовал использовать PyMuPDF (fitz)
Я использовал PyMuPDF (fitz) для извлечения текста из PDF-файлов. Хотя мне удалось получить текст, проблема в том, что форматирование потеряно (например, заголовки и подзаголовки не различимы). Также присутствует лишний шум в других частях документа, таких как цитаты и сноски.
2. Использование языковых моделей
Я также экспериментировал с языковыми моделями подсказок (LLM) для анализа извлеченного текста. Я использовал Ollama для автономной обработки, но результаты оказались недостаточно точными. Когда я попробовал GPT и Gemini от OpenAI, они предоставили точные результаты, но мне нужно решение, работающее в автономном режиме.
Что я пробовал:
  • PyMuPDF (fitz)
  • Ollama (llama3.1, gemma)
  • OpenAI GPT и Gemini для точного извлечения, но они требуют использования в Интернете.
  • PyPDF2 и аналогичные библиотеки, но они также возвращают неструктурированный текст.
Что мне нужно:
  • Точное извлечение заголовка, заголовков и подзаголовков из научных статей в формате PDF.
    Офлайн-решение.
  • Минимальный шум от дополнительного контента, такого как цитаты, номера страниц и т. д.
Есть ли надежный офлайн-метод или какие-то дополнительные шаги, которые я могу предпринять, чтобы:
  • Определить и точно извлечь заголовок, заголовки и подзаголовки.
  • Сведите к минимуму шум и ненужный контент в выходных данных.


Подробнее здесь: https://stackoverflow.com/questions/790 ... search-pap
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»