Я использую tesseract-OCR для извлечения текста из отсканированных изображений. Для некоторых изображений текст не распознается должным образом из-за низкого разрешения, а на выходе присутствуют некоторые нерелевантные символы.
Примененные методы:
Увеличьте разрешение до 300.
Методы предварительной обработки изображений в opencv.
Масштабирование изображений с помощью dnn_superres в opencv
Методы удаления шума.< /p>
Рекомендуемые репозитории git, в которых модель алгоритма сверхвысокого разрешения разрабатывается с использованием глубокого обучения.
Улучшите качество tesseract-ocr путем обучения tessdata.
Справочные ссылки:
Повысьте точность распознавания отсканированных документов
обработка изображений для повышения точности распознавания текста tesseract
Пример изображения:
Есть В Python есть простой способ улучшить текст без использования какой-либо модели глубокого обучения.
Я использую tesseract-OCR для извлечения текста из отсканированных изображений. Для некоторых изображений текст не распознается должным образом из-за низкого разрешения, а на выходе присутствуют некоторые нерелевантные символы.
[b]Примененные методы:[/b]
[list] [*]Увеличьте разрешение до 300.[*]Методы предварительной обработки изображений в opencv. [*]Масштабирование изображений с помощью dnn_superres в opencv [*]Методы удаления шума.< /p> [*]Рекомендуемые репозитории git, в которых модель алгоритма сверхвысокого разрешения разрабатывается с использованием глубокого обучения. [*] Улучшите качество tesseract-ocr путем обучения tessdata. [/list]
[b]Справочные ссылки[/b]:
[list] [*]Повысьте точность распознавания отсканированных документов [*]обработка изображений для повышения точности распознавания текста tesseract [/list]
[b]Пример изображения:[/b]
[img]https://i.sstatic.net/etKLJ.png[/img]
Есть В Python есть простой способ улучшить текст без использования какой-либо модели глубокого обучения.