Как извлечь текст, связанный с изображением, из PDF? - Цифровое Кемерово

Как извлечь текст, связанный с изображением, из PDF? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь текст, связанный с изображением, из PDF?

Цитата

Сообщение Anonymous » 16 янв 2025, 20:33

Я использую pymupdf для извлечения изображений из PDF. Пример кода приведен ниже.

Код: Выделить всё

import pymupdf

doc = pymupdf.open('sample.pdf')

page = doc[0] # get the page

image_list = page.get_images()

page_index = 0
for image_index, img in enumerate(image_list):
xref = img[page_index] # get the XREF of the image
pix = pymupdf.Pixmap(doc, xref) # create a Pixmap

if pix.n - pix.alpha > 3: # CMYK: convert to RGB first
pix = pymupdf.Pixmap(pymupdf.csRGB, pix)
pix.save("page_%s-image_%s.png" % (page_index, image_index))

Я могу извлечь изображение

из образца PDF как

Теперь я хочу для извлечения текста, связанного с рис. 6.1, который должен возвращать рис. 6.1. Укусы насекомых. Линейные зудящие папулы с корками в центре, демонстрирующие признак «завтрак, обед и ужин». С разрешения Антонио Торрело, доктора медицинских наук. Только.
Я пробовал page.get_text("block") и page.get_text(), но не уверен как я могу связать текст рис. 6.1 только с извлеченным изображением?

Подробнее здесь: https://stackoverflow.com/questions/793 ... e-from-pdf

1737048811

Anonymous

Я использую pymupdf для извлечения изображений из PDF. Пример кода приведен ниже.
[code]import pymupdf

doc = pymupdf.open('sample.pdf')

page = doc[0] # get the page

image_list = page.get_images()

page_index = 0
for image_index, img in enumerate(image_list):
xref = img[page_index] # get the XREF of the image
pix = pymupdf.Pixmap(doc, xref) # create a Pixmap

if pix.n - pix.alpha > 3: # CMYK: convert to RGB first
pix = pymupdf.Pixmap(pymupdf.csRGB, pix)
pix.save("page_%s-image_%s.png" % (page_index, image_index))
[/code]
Я могу извлечь изображение 
[img]https://i.sstatic.net/TM9qyALJ.png[/img]
 из образца PDF как
[img]https://i.sstatic.net/tn17zKyf.png[/img]

Теперь я хочу для извлечения текста, связанного с рис. 6.1, который должен возвращать рис. 6.1. Укусы насекомых. Линейные зудящие папулы с корками в центре, демонстрирующие признак «завтрак, обед и ужин». С разрешения Антонио Торрело, доктора медицинских наук. Только.
Я пробовал page.get_text("block") и page.get_text(), но не уверен как я могу связать текст рис. 6.1 только с извлеченным изображением? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79362564/how-to-extract-text-associated-with-image-from-pdf[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»