Лучшие модели или библиотеки с открытым исходным кодом для точного извлечения данных PDF?Python

Программы на Python
Ответить
Anonymous
 Лучшие модели или библиотеки с открытым исходным кодом для точного извлечения данных PDF?

Сообщение Anonymous »

Мне нужны лучшие модели, платформы или библиотеки с открытым исходным кодом для извлечения текста и структурированных данных из PDF-файлов с высокой точностью.
Мой вариант использования включает:
  • Извлечение текста из отсканированных и цифровых PDF-файлов
  • Обработку счетов, форм, страховых документов и отчетов
  • Сохранение структуры и макета таблицы
  • Поддержка оптического распознавания символов при сканировании низкого качества
  • Точное обнаружение пар ключ-значение и полей
В настоящее время мой рабочий процесс заключается в следующем:
  • Извлечение необработанного текста из PDF-файлов с помощью инструментов например PyMuPDF/pdfplumber
  • Используйте регулярные выражения (регулярные выражения) для идентификации и извлечения необходимых полей
Проблема в том, что для каждого нового формата документа мне нужно писать отдельные шаблоны регулярных выражений и собственную логику извлечения. Поддержка этих запросов регулярных выражений становится очень сложной и трудно масштабируемой для реальных производственных систем с несколькими форматами документов.
По этой причине я планирую перейти к моделям понимания документов на основе AI/LLM, которые смогут интеллектуально идентифицировать поля и структурированные данные, не полагаясь сильно на ручные правила регулярных выражений.
В настоящее время я изучаю такие решения, как:
  • PyMuPDF
    />
  • pdfplumber
  • Tesseract OCR
Однако мне хотелось бы знать, какие модели или их комбинации с открытым исходным кодом обеспечивают наилучшую реальную точность и производительность для систем извлечения PDF-файлов промышленного уровня.
Вопросы:
  • Какие модели с открытым исходным кодом в настоящее время обеспечивают наибольшую точность извлечения PDF-файлов?
  • Существует ли какой-либо рекомендуемый конвейер для обработки как отсканированных, так и цифровых PDF-файлов?
  • Какие модели лучше всего подходят для извлечения таблиц и понимания документов?
  • Существуют ли облегченные модели, подходящие для развертывания на локальных серверах?
  • Кто-нибудь успешно заменил системы извлечения с большим количеством регулярных выражений на модели искусственного интеллекта?
  • Каковы современные методы построения надежного рабочего процесса извлечения PDF-файлов на основе искусственного интеллекта?
Предпочитаемый технологический стек:
  • Python
  • Модели обнимающих лиц
  • OCR + LLM/подходы к пониманию документов
Любые предложения, тесты, рекомендации по архитектуре или опыт производства будут очень полезны.
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»