Tesseract OCR пропускает текст в PDF -обработке

Tesseract OCR пропускает текст в PDF -обработке ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Tesseract OCR пропускает текст в PDF -обработке

Цитата

Сообщение Anonymous » 13 мар 2025, 20:54

Я обрабатываю PDF, преобразуя каждую страницу в изображение, а затем используя Tesseract OCR для извлечения и создания коробок вокруг слов. Хотя большая часть текста обнаружена правильно, некоторые слова, которые должны быть легко читать, пропускаются. Интересно, что когда я делаю скриншот одного и того же проблемного текста и запускаю его через Tesseract, текст обнаруживается идеально. < /P>
Ниже приведена упрощенная версия моего кода: < /p>

Код: Выделить всё

import io
from PIL import Image, ImageDraw
import fitz
import pytesseract
from pytesseract import Output
pytesseract.pytesseract.tesseract_cmd = (
r"C:\Program Files\Tesseract-OCR\tesseract.exe"
)

INPUT_PDF = "example.pdf"
OUTPUT_PDF = "boxed_example.pdf"

def process_pdf(pdf_path):
doc = fitz.open(pdf_path)
modified_images = []

for page in doc:
zoom = 300.0 / 72.0
mat = fitz.Matrix(zoom, zoom)
pix = page.get_pixmap(matrix=mat, alpha=False)
img = Image.open(io.BytesIO(pix.tobytes("png")))
draw = ImageDraw.Draw(img)

data = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(data["text"])

for i in range(n_boxes):
x = data["left"][i]
y = data["top"][i]
w = data["width"][i]
h = data["height"][i]
draw.rectangle([x, y, x + w, y + h], outline="red", width=2)

modified_images.append(img.convert("RGB"))

doc.close()

output_buffer = io.BytesIO()
modified_images[0].save(
output_buffer,
"PDF",
resolution=300,
save_all=True,
append_images=modified_images[1:],
)
output_buffer.seek(0)
return output_buffer.getvalue()

boxed_pdf_bytes = process_pdf(INPUT_PDF)
with open(OUTPUT_PDF, "wb") as f:
f.write(boxed_pdf_bytes)
print(f"Boxed PDF saved as {OUTPUT_PDF}")

Что я пробовал до сих пор:
Изменение DPI, разные режимы PSM, но ничего не помогло. /> Обнаружен почти весь текст, за исключением полных страниц 2 и 11. < /p>

Подробнее здесь: https://stackoverflow.com/questions/795 ... processing

1741888441

Anonymous

 Я обрабатываю PDF, преобразуя каждую страницу в изображение, а затем используя Tesseract OCR для извлечения и создания коробок вокруг слов. Хотя большая часть текста обнаружена правильно, некоторые слова, которые должны быть легко читать, пропускаются. Интересно, что когда я делаю скриншот одного и того же проблемного текста и запускаю его через Tesseract, текст обнаруживается идеально. < /P>
Ниже приведена упрощенная версия моего кода: < /p>
[code]import io
from PIL import Image, ImageDraw
import fitz
import pytesseract
from pytesseract import Output
pytesseract.pytesseract.tesseract_cmd = (
r"C:\Program Files\Tesseract-OCR\tesseract.exe"
)

INPUT_PDF = "example.pdf"
OUTPUT_PDF = "boxed_example.pdf"

def process_pdf(pdf_path):
doc = fitz.open(pdf_path)
modified_images = []

for page in doc:
zoom = 300.0 / 72.0
mat = fitz.Matrix(zoom, zoom)
pix = page.get_pixmap(matrix=mat, alpha=False)
img = Image.open(io.BytesIO(pix.tobytes("png")))
draw = ImageDraw.Draw(img)

data = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(data["text"])

for i in range(n_boxes):
x = data["left"][i]
y = data["top"][i]
w = data["width"][i]
h = data["height"][i]
draw.rectangle([x, y, x + w, y + h], outline="red", width=2)

modified_images.append(img.convert("RGB"))

doc.close()

output_buffer = io.BytesIO()
modified_images[0].save(
output_buffer,
"PDF",
resolution=300,
save_all=True,
append_images=modified_images[1:],
)
output_buffer.seek(0)
return output_buffer.getvalue()

boxed_pdf_bytes = process_pdf(INPUT_PDF)
with open(OUTPUT_PDF, "wb") as f:
f.write(boxed_pdf_bytes)
print(f"Boxed PDF saved as {OUTPUT_PDF}")
[/code]
Что я пробовал до сих пор:
Изменение DPI, разные режимы PSM, но ничего не помогло. />  Обнаружен почти весь текст, за исключением полных страниц 2 и 11. < /p> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79507253/tesseract-ocr-misses-some-text-in-pdf-processing[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Tesseract OCR пропускает текст в PDF -обработке

Последнее сообщение Anonymous « 14 мар 2025, 00:20
Добавлено в форуме Python

Anonymous » 14 мар 2025, 00:20 » в форуме Python

Я обрабатываю PDF, преобразуя каждую страницу в изображение, а затем используя Tesseract OCR для извлечения и создания коробок вокруг слов. Хотя большая часть текста обнаружена правильно, некоторые слова, которые должны быть легко читать,...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
14 мар 2025, 00:20
Tesseract OCR пропускает всю строку текста

Последнее сообщение Anonymous « 14 ноя 2024, 06:45
Добавлено в форуме Python

Anonymous » 14 ноя 2024, 06:45 » в форуме Python

import ocrmypdf
from pdf2image import convert_from_path
from PIL import Image, ImageEnhance, ImageFilter
import numpy as np
import img2pdf
import io
import cv2

def preprocess_image(img):

Preprocess image function (contrast enhancement, noise...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
14 ноя 2024, 06:45
Tesseract OCR не читая размытый или разбитый текст из изображения-нужен точный метод изображения в текст

Последнее сообщение Anonymous « 20 июн 2025, 12:48
Добавлено в форуме C#

Anonymous » 20 июн 2025, 12:48 » в форуме C#

В настоящее время я использую двигатель tesseract-ocr в моем приложении для извлечения текста из изображений. Хотя это хорошо работает во многих случаях, я сталкиваюсь с проблемами, в которых он не может читать размытый или частично сломанный текст...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
20 июн 2025, 12:48
Встроить/вставить/добавить данные JSON OCR, сгенерированные Google Cloud Vision (OCR)», в файл PDF и сделать PDF доступн

Последнее сообщение Anonymous « 25 июн 2024, 00:40
Добавлено в форуме Php

Anonymous » 25 июн 2024, 00:40 » в форуме Php

Я использую Google Cloud Vision API (OCR) для обнаружения текста в файлах PDF с помощью библиотеки PHP API. Оптическое распознавание текста выполнено идеально, и я сохранил полный набор выходных файлов JSON (например, output-1-to-2.json) с полными...

0 Ответы

40 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 00:40
Встроить/вставить/добавить данные JSON OCR, сгенерированные Google Cloud Vision (OCR)», в файл PDF и сделать PDF доступн

Последнее сообщение Anonymous « 13 июл 2024, 14:46
Добавлено в форуме Php

Anonymous » 13 июл 2024, 14:46 » в форуме Php

Я использую Google Cloud Vision API (OCR) для обнаружения текста в файлах PDF с помощью библиотеки PHP API. Оптическое распознавание текста выполнено идеально, и я сохранил полный набор выходных файлов JSON (например, output-1-to-2.json) с полными...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
13 июл 2024, 14:46

Вернуться в «Python»