Лучший подход к преобразованию изображения в текст (ocr) [закрыто]Python

Программы на Python
Ответить
Anonymous
 Лучший подход к преобразованию изображения в текст (ocr) [закрыто]

Сообщение Anonymous »

Заголовок: Повышение точности распознавания PDF-файлов со смешанным макетом (Python): предварительная обработка и предложения по модели?
Я создаю инструмент автоматизации, который отслеживает папку, обнаруживает новые PDF-файлы, запускает распознавание текста и извлекает определенные поля в структурированный вывод. Конвейер использует Python с PyMuPDF, Tesseract/PaddleOCR и Watchdog, а также некоторые специальные методы извлечения текста на основе регулярных выражений.
Я столкнулся с несколькими проблемами:
  • Некоторые PDF-файлы возвращают очень шумные результаты распознавания, хотя визуально они выглядят чистыми.
  • Смешанный макеты (таблицы, многоколоночный текст) нарушают извлечение или создают беспорядочный текст.
  • Не знаете, какая модель/настройка OCR обеспечивает наиболее надежную точность для таких документов.
  • Неопределенность предварительной обработки – какая комбинация устранения перекоса, шумоподавления, пороговой обработки и т. д. действительно помогает?
Текущая настройка:
  • PyMuPDF для PDF → преобразование изображений
  • PaddleOCR (основной) + резервный вариант Tesseract
  • Извлечение на основе регулярных выражений
  • Автообработка папок через Watchdog/PollingObserver
Мне нужны предложения по:
  • Эффективным конвейерам предварительной обработки в Python перед распознаванием текста
  • Лучшим механизмам/моделям OCR для смешанной структуры документы
  • Такие инструменты, как LayoutParser / DocTR / Donut для извлечения с учетом макета.
  • Любые способы повысить точность перед анализом текста
Если у кого-то есть практический опыт или тесты для этих сценариев, я буду признателен за ваши идеи. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/798 ... o-text-ocr
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»