Я прикрепил PDF-файл, уже преобразованный в jpg, который я использовал, с помощью конфиденциальная информация заблокирована. Я также приложил свой простой код.
Тестовый документ
Код: Выделить всё
import pytesseract
from pdf2image import convert_from_path
file = r"C:\Users\jkaplan\Documents\2023_HYDE, MATTHEW_SIGNED E-FILE AUTHORIZATION FORM.pdf"
image = convert_from_path(file, use_pdftocairo=True)
image[0].save('testdoc.jpg')
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
text = pytesseract.image_to_string(image[0], lang="eng")
print(text)
Подробнее здесь: https://stackoverflow.com/questions/786 ... -in-python