Усовершенствование изображений плана этажа в PDFPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Усовершенствование изображений плана этажа в PDF

Сообщение Anonymous »

Мы работаем над проектом, чтобы включить OCR на PDF. Мы использовали ocrmypdf (который использует Tesseract) в фоновом режиме, и он работает прилично хорошо для ~ 95% страниц. Резолюция не является наибольшим, и, следовательно, оно не может правильно захватить имя или номер. Образец изображения был прикреплен. Запуск примера кода: < /p>

Код: Выделить всё

% ocrmypdf --force-ocr --deskew --rotate-pages --rotate-pages-threshold 1.0 --oversample 600   

Мы также попытались улучшить конкретные страницы с помощью ImageMagick до работы OCRMYPDF, и, хотя это помогает биться в сочинениях, это сильно размывает их. Образец запуска: < /p>

Код: Выделить всё

magick  -brightness-contrast -20x40 -depth 8 -colors 8 

Есть ли другие способы, которыми мы можем рассмотреть вопрос о подходе этой проблемы? Должны ли мы рассмотреть другой усилитель изображения, а затем запуск OCR?

Подробнее здесь: https://stackoverflow.com/questions/794 ... es-in-pdfs
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»