Извлечение Python и изображения OCR JBIG2Python

Программы на Python
Ответить
Anonymous
 Извлечение Python и изображения OCR JBIG2

Сообщение Anonymous »

Я пытаюсь распознать PDF-файл в Python, содержащий изображения в кодировке JBIG2.
Первоначально я начал с PyPDF, и понял, что ограничением здесь является PIL: https://github.com/py-pdf/pypdf /issues/1989
Используя PyMuPDF, я могу извлечь изображения JBIG2. С помощью простой проверки я могу убедиться, что изображения имеют формат JBIG2:

Код: Выделить всё

if image_bytes["ext"] == "jb2":
# do stuff
Поскольку я использую Tesseract для оптического распознавания символов, я не могу здесь ничего сделать с байтами изображения. Следующей попыткой было использовать PikePDF для преобразования изображений JBIG2 в PNG. К сожалению, PikePDF не смог найти ни одного изображения, закодированного в JBIG2 (см. образец PDF в выпуске выше).
Далее я попытался сделать это вручную с помощью PikePDF:

Код: Выделить всё

with pikepdf.open(pdf) as p_pdf:
print(len(p_pdf.pages[0].images))
pike_pdf_stream = Stream(p_pdf, image_bytes["image"], Filter=["/JBIG2Decode"], Subtype="/Image")
p_jbig2_image = PdfImage(pike_pdf_stream)
jbig2_image.extract_to(fileprefix='image')
Это тоже не сработало (может быть, я что-то пропустил?).
По сути, мой вопрос заключается в том, как выполнить распознавание PDF-файлов, содержащих Изображения JBIG2. Связанная проблема: Извлечение изображений из PDF, как работать с кодировкой JBIG2. Предпочтительно, я не хочу использовать какие-либо инструменты командной строки. Есть ли у вас идеи, как это решить?

Подробнее здесь: https://stackoverflow.com/questions/784 ... ig2-images
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»