Когда я запускаю tesseract ocr с lang = 'fra' , все французский текст извлечен идеально . Чтобы справиться с обоими языками в одном проходе, я начинаю получать странные ошибки:
- Французские слова неверно прочитаны или заменены (например, Societe становится 50012175 )
- Имена французской компании становятся случайными арабскими символами (например, Alpha . حمناطاحم )
- арабские слова работают нормально, но французский язык развращается.
Я хотел бы, чтобы tesseract приоритет в арабском языке (на самом деле, когда он смотрит на французский, и только что в арабском языке). Текст. < /p>
Я попытался сделать OCR в двух проходах (
Код: Выделить всё
fra
- Расстановка приоритетов fra over ara во время одного запуска OCR? Выходы? Python
- Вход OCR: сканирующие PDFS/Images (высокое качество)
образец изображения
Подробнее здесь: https://stackoverflow.com/questions/795 ... a-on-bilin