Извлечение Python и изображения OCR JBIG2

Извлечение Python и изображения OCR JBIG2 ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Извлечение Python и изображения OCR JBIG2

Цитата

Сообщение Anonymous » 18 янв 2025, 03:43

Я пытаюсь распознать PDF-файл в Python, содержащий изображения в кодировке JBIG2.
Первоначально я начал с PyPDF, и понял, что ограничением здесь является PIL: https://github.com/py-pdf/pypdf /issues/1989
Используя PyMuPDF, я могу извлечь изображения JBIG2. С помощью простой проверки я могу убедиться, что изображения имеют формат JBIG2:

Код: Выделить всё

if image_bytes["ext"] == "jb2":
# do stuff

Поскольку я использую Tesseract для оптического распознавания символов, я не могу здесь ничего сделать с байтами изображения. Следующей попыткой было использовать PikePDF для преобразования изображений JBIG2 в PNG. К сожалению, PikePDF не смог найти ни одного изображения, закодированного в JBIG2 (см. образец PDF в выпуске выше).
Далее я попытался сделать это вручную с помощью PikePDF:

Код: Выделить всё

with pikepdf.open(pdf) as p_pdf:
print(len(p_pdf.pages[0].images))
pike_pdf_stream = Stream(p_pdf, image_bytes["image"], Filter=["/JBIG2Decode"], Subtype="/Image")
p_jbig2_image = PdfImage(pike_pdf_stream)
jbig2_image.extract_to(fileprefix='image')

Это тоже не сработало (может быть, я что-то пропустил?).
По сути, мой вопрос заключается в том, как выполнить распознавание PDF-файлов, содержащих Изображения JBIG2. Связанная проблема: Извлечение изображений из PDF, как работать с кодировкой JBIG2. Предпочтительно, я не хочу использовать какие-либо инструменты командной строки. Есть ли у вас идеи, как это решить?

Подробнее здесь: https://stackoverflow.com/questions/784 ... ig2-images

1737161035

Anonymous

Я пытаюсь распознать PDF-файл в Python, содержащий изображения в кодировке JBIG2.
Первоначально я начал с PyPDF, и понял, что ограничением здесь является PIL: https://github.com/py-pdf/pypdf /issues/1989
Используя PyMuPDF, я могу извлечь изображения JBIG2. С помощью простой проверки я могу убедиться, что изображения имеют формат JBIG2:
[code]if image_bytes["ext"] == "jb2":
# do stuff
[/code]
Поскольку я использую Tesseract для оптического распознавания символов, я не могу здесь ничего сделать с байтами изображения. Следующей попыткой было использовать PikePDF для преобразования изображений JBIG2 в PNG. К сожалению, PikePDF не смог найти ни одного изображения, закодированного в JBIG2 (см. образец PDF в выпуске выше).
Далее я попытался сделать это вручную с помощью PikePDF:
[code]with pikepdf.open(pdf) as p_pdf:
print(len(p_pdf.pages[0].images))
pike_pdf_stream = Stream(p_pdf, image_bytes["image"], Filter=["/JBIG2Decode"], Subtype="/Image")
p_jbig2_image = PdfImage(pike_pdf_stream)
jbig2_image.extract_to(fileprefix='image')
[/code]
Это тоже не сработало (может быть, я что-то пропустил?).
По сути, мой вопрос заключается в том, как выполнить распознавание PDF-файлов, содержащих Изображения JBIG2. Связанная проблема: Извлечение изображений из PDF, как работать с кодировкой JBIG2. Предпочтительно, я не хочу использовать какие-либо инструменты командной строки. Есть ли у вас идеи, как это решить? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78471552/python-extract-and-ocr-jbig2-images[/url]