Я создаю инструмент автоматизации, который отслеживает папку, обнаруживает новые PDF-файлы, запускает распознавание текста и извлекает определенные поля в структурированный вывод. Конвейер использует Python с PyMuPDF, Tesseract/PaddleOCR и Watchdog, а также некоторые специальные методы извлечения текста на основе регулярных выражений.
Я столкнулся с несколькими проблемами:
- Некоторые PDF-файлы возвращают очень шумные результаты распознавания, хотя визуально они выглядят чистыми.
- Смешанный макеты (таблицы, многоколоночный текст) нарушают извлечение или создают беспорядочный текст.
- Не знаете, какая модель/настройка OCR обеспечивает наиболее надежную точность для таких документов.
- Неопределенность предварительной обработки – какая комбинация устранения перекоса, шумоподавления, пороговой обработки и т. д. действительно помогает?
- PyMuPDF для PDF → преобразование изображений
- PaddleOCR (основной) + резервный вариант Tesseract
- Извлечение на основе регулярных выражений
- Автообработка папок через Watchdog/PollingObserver
- Эффективным конвейерам предварительной обработки в Python перед распознаванием текста
- Лучшим механизмам/моделям OCR для смешанной структуры документы
- Такие инструменты, как LayoutParser / DocTR / Donut для извлечения с учетом макета.
- Любые способы повысить точность перед анализом текста
Подробнее здесь: https://stackoverflow.com/questions/798 ... o-text-ocr
Мобильная версия