Как расставить приоритеты на французском OCR по арабскому языку при использовании Tesseract (FRA+ARA) на двуязычных докуPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как расставить приоритеты на французском OCR по арабскому языку при использовании Tesseract (FRA+ARA) на двуязычных доку

Сообщение Anonymous »

Я работаю над отсканированными документами (регистрами), которые содержат как французский и арабский текст.
Когда я запускаю tesseract ocr с lang = 'fra' , все французский текст извлечен идеально . Чтобы справиться с обоими языками в одном проходе, я начинаю получать странные ошибки:
  • Французские слова неверно прочитаны или заменены (например, Societe становится 50012175 )
  • Имена французской компании становятся случайными арабскими символами (например, Alpha . حمناطاحم )
  • арабские слова работают нормально, но французский язык развращается.
Что я хочу:
Я хотел бы, чтобы tesseract приоритет в арабском языке (на самом деле, когда он смотрит на французский, и только что в арабском языке). Текст. < /p>
Я попытался сделать OCR в двух проходах ( и ara ) и комбинировать их вручную, но трудно правильно согласовать слова, так как Tesseract разбивает и заказывает текст по -разному для арабского и французского. to:
  • Расстановка приоритетов fra over ara во время одного запуска OCR? Выходы? Python
  • Вход OCR: сканирующие PDFS/Images (высокое качество)
    образец изображения


Подробнее здесь: https://stackoverflow.com/questions/795 ... a-on-bilin
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»