Попытка получить точное распознавание текста в PythonPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Попытка получить точное распознавание текста в Python

Сообщение Anonymous »

Я пытаюсь получить текст из PDF-документов с помощью pytesseract, но это оказывается очень неточно. В частности, я пытаюсь прочитать нижнюю часть страницы, где написано ZI2440A, но печатается Z12440A. Есть ли способ лучше обработать это изображение перед распознаванием текста или есть другой инструмент, который будет работать лучше?
Я прикрепил PDF-файл, уже преобразованный в jpg, который я использовал, с помощью конфиденциальная информация заблокирована. Я также приложил свой простой код.
Тестовый документ

Код: Выделить всё

import pytesseract
from pdf2image import convert_from_path

file = r"C:\Users\jkaplan\Documents\2023_HYDE, MATTHEW_SIGNED E-FILE AUTHORIZATION FORM.pdf"
image = convert_from_path(file, use_pdftocairo=True)
image[0].save('testdoc.jpg')
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
text = pytesseract.image_to_string(image[0], lang="eng")
print(text)
Я пытался воспроизвести этот код с помощью pypdf и pdfminer, но они оба прочитали этот символ как 1 вместо I.

Подробнее здесь: https://stackoverflow.com/questions/786 ... -in-python
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»