1. Пробовал использовать PyMuPDF (fitz)
Я использовал PyMuPDF (fitz) для извлечения текста из PDF-файлов. Хотя мне удалось получить текст, проблема в том, что форматирование потеряно (например, заголовки и подзаголовки не различимы). Также присутствует лишний шум в других частях документа, таких как цитаты и сноски.
2. Использование языковых моделей
Я также экспериментировал с языковыми моделями подсказок (LLM) для анализа извлеченного текста. Я использовал Ollama для автономной обработки, но результаты оказались недостаточно точными. Когда я попробовал GPT и Gemini от OpenAI, они предоставили точные результаты, но мне нужно решение, работающее в автономном режиме.
Что я пробовал:
- PyMuPDF (fitz)
- Ollama (llama3.1, gemma)
- OpenAI GPT и Gemini для точного извлечения, но они требуют использования в Интернете.
- PyPDF2 и аналогичные библиотеки, но они также возвращают неструктурированный текст.
- Точное извлечение заголовка, заголовков и подзаголовков из научных статей в формате PDF.
Офлайн-решение. - Минимальный шум от дополнительного контента, такого как цитаты, номера страниц и т. д.
- Определить и точно извлечь заголовок, заголовки и подзаголовки.
- Сведите к минимуму шум и ненужный контент в выходных данных.
Подробнее здесь: https://stackoverflow.com/questions/790 ... search-pap