Код: Выделить всё
import pymupdf
doc = pymupdf.open('sample.pdf')
page = doc[0] # get the page
image_list = page.get_images()
page_index = 0
for image_index, img in enumerate(image_list):
xref = img[page_index] # get the XREF of the image
pix = pymupdf.Pixmap(doc, xref) # create a Pixmap
if pix.n - pix.alpha > 3: # CMYK: convert to RGB first
pix = pymupdf.Pixmap(pymupdf.csRGB, pix)
pix.save("page_%s-image_%s.png" % (page_index, image_index))

из образца PDF как

Теперь я хочу для извлечения текста, связанного с рис. 6.1, который должен возвращать рис. 6.1. Укусы насекомых. Линейные зудящие папулы с корками в центре, демонстрирующие признак «завтрак, обед и ужин». С разрешения Антонио Торрело, доктора медицинских наук. Только.
Я пробовал page.get_text("block") и page.get_text(), но не уверен как я могу связать текст рис. 6.1 только с извлеченным изображением?
Подробнее здесь: https://stackoverflow.com/questions/793 ... e-from-pdf
Мобильная версия