Лучший подход к преобразованию изображения в текст (ocr) [закрыто]

Лучший подход к преобразованию изображения в текст (ocr) [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Лучший подход к преобразованию изображения в текст (ocr) [закрыто]

Цитата

Сообщение Anonymous » 01 дек 2025, 11:39

Заголовок: Повышение точности распознавания PDF-файлов со смешанным макетом (Python): предварительная обработка и предложения по модели?
Я создаю инструмент автоматизации, который отслеживает папку, обнаруживает новые PDF-файлы, запускает распознавание текста и извлекает определенные поля в структурированный вывод. Конвейер использует Python с PyMuPDF, Tesseract/PaddleOCR и Watchdog, а также некоторые специальные методы извлечения текста на основе регулярных выражений.
Я столкнулся с несколькими проблемами:

Некоторые PDF-файлы возвращают очень шумные результаты распознавания, хотя визуально они выглядят чистыми.
Смешанный макеты (таблицы, многоколоночный текст) нарушают извлечение или создают беспорядочный текст.
Не знаете, какая модель/настройка OCR обеспечивает наиболее надежную точность для таких документов.
Неопределенность предварительной обработки – какая комбинация устранения перекоса, шумоподавления, пороговой обработки и т. д. действительно помогает?

Текущая настройка:

PyMuPDF для PDF → преобразование изображений
PaddleOCR (основной) + резервный вариант Tesseract
Извлечение на основе регулярных выражений
Автообработка папок через Watchdog/PollingObserver

Мне нужны предложения по:

Эффективным конвейерам предварительной обработки в Python перед распознаванием текста
Лучшим механизмам/моделям OCR для смешанной структуры документы
Такие инструменты, как LayoutParser / DocTR / Donut для извлечения с учетом макета.
Любые способы повысить точность перед анализом текста

Если у кого-то есть практический опыт или тесты для этих сценариев, я буду признателен за ваши идеи. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/798 ... o-text-ocr

1764578341

Anonymous

[b]Заголовок:[/b] Повышение точности распознавания PDF-файлов со смешанным макетом (Python): предварительная обработка и предложения по модели?
Я создаю инструмент автоматизации, который отслеживает папку, обнаруживает новые PDF-файлы, запускает распознавание текста и извлекает определенные поля в структурированный вывод. Конвейер использует Python с PyMuPDF, Tesseract/PaddleOCR и Watchdog, а также некоторые специальные методы извлечения текста на основе регулярных выражений.
Я столкнулся с несколькими проблемами:
[list]
[*][b]Некоторые PDF-файлы возвращают очень шумные результаты распознавания[/b], хотя визуально они выглядят чистыми.

[*][b]Смешанный макеты (таблицы, многоколоночный текст) нарушают извлечение[/b] или создают беспорядочный текст.

[*][b]Не знаете, какая модель/настройка OCR обеспечивает наиболее надежную точность[/b] для таких документов.

[*][b]Неопределенность предварительной обработки[/b] – какая комбинация устранения перекоса, шумоподавления, пороговой обработки и т. д. действительно помогает?

[/list]
[b]Текущая настройка:[/b]
[list]
[*]PyMuPDF для PDF → преобразование изображений

[*]PaddleOCR (основной) + резервный вариант Tesseract

[*]Извлечение на основе регулярных выражений

[*]Автообработка папок через Watchdog/PollingObserver

[/list]
[b]Мне нужны предложения по:[/b]
[list]
[*]Эффективным конвейерам предварительной обработки в Python перед распознаванием текста

[*]Лучшим механизмам/моделям OCR для смешанной структуры документы

[*]Такие инструменты, как LayoutParser / DocTR / Donut для извлечения с учетом макета.

[*]Любые способы повысить точность перед анализом текста

[/list]
Если у кого-то есть практический опыт или тесты для этих сценариев, я буду признателен за ваши идеи. Спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79834511/the-best-approach-for-image-to-text-ocr[/url]