Первоначально я начал с PyPDF, и понял, что ограничением здесь является PIL: https://github.com/py-pdf/pypdf /issues/1989
Используя PyMuPDF, я могу извлечь изображения JBIG2. С помощью простой проверки я могу убедиться, что изображения имеют формат JBIG2:
Код: Выделить всё
if image_bytes["ext"] == "jb2":
# do stuff
Далее я попытался сделать это вручную с помощью PikePDF:
Код: Выделить всё
with pikepdf.open(pdf) as p_pdf:
print(len(p_pdf.pages[0].images))
pike_pdf_stream = Stream(p_pdf, image_bytes["image"], Filter=["/JBIG2Decode"], Subtype="/Image")
p_jbig2_image = PdfImage(pike_pdf_stream)
jbig2_image.extract_to(fileprefix='image')
По сути, мой вопрос заключается в том, как выполнить распознавание PDF-файлов, содержащих Изображения JBIG2. Связанная проблема: Извлечение изображений из PDF, как работать с кодировкой JBIG2. Предпочтительно, я не хочу использовать какие-либо инструменты командной строки. Есть ли у вас идеи, как это решить?
Подробнее здесь: https://stackoverflow.com/questions/784 ... ig2-images
Мобильная версия