Правильно извлекайте текст из изображения с помощью Tesseract OCR

Правильно извлекайте текст из изображения с помощью Tesseract OCR ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Правильно извлекайте текст из изображения с помощью Tesseract OCR

Цитата

Сообщение Anonymous » 12 май 2024, 11:27

Я пытался извлечь жирный белый текст из этого изображения, но не смог заставить его работать правильно. Похоже, что 9 читается как 3, а I как 1.
Просматривал различные сайты, на которых есть код для улучшения качества изображения, но он не работал. Кто-нибудь может мне помочь с этим? Желаемый результат должен быть «I6M-9U».

Код: Выделить всё

def get_text_from_image(image: cv2.Mat) -> str:
pytesseract.pytesseract.tesseract_cmd = r'C:\Tesseract-OCR\tesseract.exe'

# Crop image to only get the piece I am interested in
top, left, height, width = 25, 170, 40, 250

try:
crop_img = image[top:top + height, left:left + width]

# Make it bigger
resize_scaling = 1500
resize_width = int(crop_img.shape[1] * resize_scaling / 100)
resize_height = int(crop_img.shape[0] * resize_scaling / 100)
resized_dimensions = (resize_width, resize_height)

# Resize it
crop_img = cv2.resize(crop_img, resized_dimensions, interpolation=cv2.INTER_CUBIC)

return str(pytesseract.image_to_string(crop_img, config="--psm 6"))

ОБНОВЛЕННЫЙ КОД

Код: Выделить всё

ret, thresh1 = cv.threshold(image, 120, 255, cv.THRESH_BINARY +
cv.THRESH_OTSU)

cv.imshow("image", thresh1)

Теперь все фоновые артефакты удалены, но теперь первая буква I читается как 1, а цифра 9 читается как 3

Подробнее здесь: https://stackoverflow.com/questions/784 ... seract-ocr

1715502443

Anonymous

Я пытался извлечь жирный белый текст из этого изображения, но не смог заставить его работать правильно. Похоже, что 9 читается как 3, а I как 1.
Просматривал различные сайты, на которых есть код для улучшения качества изображения, но он не работал. Кто-нибудь может мне помочь с этим? Желаемый результат должен быть «I6M-9U». 
[img]https://i.sstatic.net/84gAynTK.png[/img]

[code]def get_text_from_image(image: cv2.Mat) -> str:
pytesseract.pytesseract.tesseract_cmd = r'C:\Tesseract-OCR\tesseract.exe'

# Crop image to only get the piece I am interested in
top, left, height, width = 25, 170, 40, 250

try:
crop_img = image[top:top + height, left:left + width]

# Make it bigger
resize_scaling = 1500
resize_width = int(crop_img.shape[1] * resize_scaling / 100)
resize_height = int(crop_img.shape[0] * resize_scaling / 100)
resized_dimensions = (resize_width, resize_height)

# Resize it
crop_img = cv2.resize(crop_img, resized_dimensions, interpolation=cv2.INTER_CUBIC)

return str(pytesseract.image_to_string(crop_img, config="--psm 6"))
[/code]
ОБНОВЛЕННЫЙ КОД
[code]ret, thresh1 = cv.threshold(image, 120, 255, cv.THRESH_BINARY +
cv.THRESH_OTSU)

cv.imshow("image", thresh1)
[/code]
Теперь все фоновые артефакты удалены, но теперь первая буква I читается как 1, а цифра 9 читается как 3 

Подробнее здесь: [url]https://stackoverflow.com/questions/78450023/correctly-extract-text-from-image-using-tesseract-ocr[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Tesseract OCR не читая размытый или разбитый текст из изображения-нужен точный метод изображения в текст

Последнее сообщение Anonymous « 20 июн 2025, 12:48
Добавлено в форуме C#

Anonymous » 20 июн 2025, 12:48 » в форуме C#

В настоящее время я использую двигатель tesseract-ocr в моем приложении для извлечения текста из изображений. Хотя это хорошо работает во многих случаях, я сталкиваюсь с проблемами, в которых он не может читать размытый или частично сломанный текст...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
20 июн 2025, 12:48
Tesseract OCR пропускает текст в PDF -обработке

Последнее сообщение Anonymous « 13 мар 2025, 20:54
Добавлено в форуме Python

Anonymous » 13 мар 2025, 20:54 » в форуме Python

Я обрабатываю PDF, преобразуя каждую страницу в изображение, а затем используя Tesseract OCR для извлечения и создания коробок вокруг слов. Хотя большая часть текста обнаружена правильно, некоторые слова, которые должны быть легко читать,...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
13 мар 2025, 20:54
Tesseract OCR пропускает текст в PDF -обработке

Последнее сообщение Anonymous « 14 мар 2025, 00:20
Добавлено в форуме Python

Anonymous » 14 мар 2025, 00:20 » в форуме Python

Я обрабатываю PDF, преобразуя каждую страницу в изображение, а затем используя Tesseract OCR для извлечения и создания коробок вокруг слов. Хотя большая часть текста обнаружена правильно, некоторые слова, которые должны быть легко читать,...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
14 мар 2025, 00:20
Невозможно получить шрифт OCR Type3 после предварительной обработки изображения, обучение Tesseract

Последнее сообщение Anonymous « 17 июн 2025, 19:37
Добавлено в форуме C#

Anonymous » 17 июн 2025, 19:37 » в форуме C#

Я пытаюсь снять определенную область страницы PDF в многостраничном документе (общее количество страниц варьируется от 600 до 10 000 страниц). Первоначально я получаю данные как файлы .pcl в партиях из 500 записей, которые затем я преобразую в PDF с...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
17 июн 2025, 19:37
Невозможно получить шрифт OCR Type3 после предварительной обработки изображения, обучение Tesseract

Последнее сообщение Anonymous « 17 июн 2025, 19:37
Добавлено в форуме C#

Anonymous » 17 июн 2025, 19:37 » в форуме C#

Я пытаюсь снять определенную область страницы PDF в многостраничном документе (общее количество страниц варьируется от 600 до 10 000 страниц). Первоначально я получаю данные как файлы .pcl в партиях из 500 записей, которые затем я преобразую в PDF с...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
17 июн 2025, 19:37

Вернуться в «Python»