Я работаю над проектом, в котором мне нужно выполнить оптическое распознавание символов (OCR) для текстовых изображений. Однако эти изображения повреждены различными способами (например, размыты, искажены, имеют низкое разрешение), что значительно снижает точность результатов оптического распознавания символов.
Я уже пробовал несколько этапов предварительной обработки, таких как набор номера/эрозии двоичного изображения, а также удаление crimmins speckle_= , но результаты все еще неудовлетворительны. Моя цель — улучшить качество и четкость этих поврежденных изображений перед применением оптического распознавания символов, чтобы повысить точность извлечения текста.
Я наткнулся на модель под названием OCR-VQGAN, которая кажется близкой к тому, что мне нужно, но не совсем подходит для моего конкретного случая использования. Я ищу рекомендации по моделям или подходам машинного обучения, которые могут помочь в этом сценарии. В идеале я ищу модели, которые добились успеха в:
[*]Восстановление или улучшение текстовых изображений. [*]Удаление размытия или шумоподавления текста на изображениях. [*]Улучшение качества изображений для повышения точности распознавания.
Будем очень признательны за любые рекомендации по существующим моделям, исследовательским работам или репозиториям GitHub, которые могут помочь в решении этой проблемы. Кроме того, если существуют какие-либо конкретные стратегии или методы обработки изображений или машинного обучения, которые, по вашему мнению, могут оказаться полезными, мне было бы очень интересно о них узнать.
Вот один из типов изображений, над которыми я работаю.

Заранее благодарим за помощь!