Питессеракт не может распознать букву АPython

Программы на Python
Ответить
Anonymous
 Питессеракт не может распознать букву А

Сообщение Anonymous »


Изображение

У меня есть куча текста, подобного приведенному выше. Во всем тексте pytesseract не может распознать букву A. Он находит все остальные буквы вокруг буквы A, но не распознает A. Вот вывод pytesseract:

Код: Выделить всё

FLO-RESTER,DISP,12MM,SPK-LGLOB_L
Изображение, с которым я работаю, представляет собой PDF-файл, состоящий из одной страницы, все содержимое которой представляет собой изображение. Первоначально это было ~ 1700x2000, но я попробовал уменьшить его, и это улучшило ситуацию, а именно повысило уверенность. А вот с буквой А не повезло.

Код: Выделить всё

TESSERACT_CONFIG = r'--psm 4 -c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789$.-_, '

df = pytesseract.image_to_data(
resized_image,
config=TESSERACT_CONFIG,
lang='eng',
output_type=pytesseract.Output.DATAFRAME
)
Я использую psm 4, который, как я понимаю из pyimagesearch, предназначен для таблиц/столбцов.

Подробнее здесь: https://stackoverflow.com/questions/798 ... e-letter-a
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»