Питессеракт не может распознать букву А

Питессеракт не может распознать букву А ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 22 дек 2025, 21:24

У меня есть куча текста, подобного приведенному выше. Во всем тексте pytesseract не может распознать букву A. Он находит все остальные буквы вокруг буквы A, но не распознает A. Вот вывод pytesseract:

Код: Выделить всё

FLO-RESTER,DISP,12MM,SPK-LGLOB_L

Изображение, с которым я работаю, представляет собой PDF-файл, состоящий из одной страницы, все содержимое которой представляет собой изображение. Первоначально это было ~ 1700x2000, но я попробовал уменьшить его, и это улучшило ситуацию, а именно повысило уверенность. А вот с буквой А не повезло.

Код: Выделить всё

TESSERACT_CONFIG = r'--psm 4 -c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789$.-_, '

df = pytesseract.image_to_data(
resized_image,
config=TESSERACT_CONFIG,
lang='eng',
output_type=pytesseract.Output.DATAFRAME
)

Я использую psm 4, который, как я понимаю из pyimagesearch, предназначен для таблиц/столбцов.

Подробнее здесь: https://stackoverflow.com/questions/798 ... e-letter-a

1766427866

Anonymous


[img]https://i.sstatic.net/jfGHDJFd.png[/img]

У меня есть куча текста, подобного приведенному выше. Во всем тексте pytesseract не может распознать букву A. Он находит все остальные буквы вокруг буквы A, но не распознает A. Вот вывод pytesseract:
[code]FLO-RESTER,DISP,12MM,SPK-LGLOB_L
[/code]
Изображение, с которым я работаю, представляет собой PDF-файл, состоящий из одной страницы, все содержимое которой представляет собой изображение. Первоначально это было ~ 1700x2000, но я попробовал уменьшить его, и это улучшило ситуацию, а именно повысило уверенность. А вот с буквой А не повезло.
[code]TESSERACT_CONFIG = r'--psm 4 -c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789$.-_, '

df = pytesseract.image_to_data(
resized_image,
config=TESSERACT_CONFIG,
lang='eng',
output_type=pytesseract.Output.DATAFRAME
)
[/code]
Я использую psm 4, который, как я понимаю из pyimagesearch, предназначен для таблиц/столбцов. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79853038/pytesseract-cant-recognize-the-letter-a[/url]