Последовательно извлекайте тексты и изображения с помощью Pymupdf.Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Последовательно извлекайте тексты и изображения с помощью Pymupdf.

Сообщение Anonymous »


Мне нужно последовательно извлечь тексты и изображения с помощью Pymupdf. Поэтому мне нужно знать, в каком текстовом блоке и между каким текстовым блоком находится изображение. Это простой код извлечения изображения.

import fitz # Импортировать PyMuPDF импортировать ОС защита Extract_images (pdf_path, выходная_папка): документ = fitz.open(pdf_path) image_count = 0 если нет os.path.exists(output_folder): os.madeirs(output_folder) для page_num в диапазоне (len(doc)): страница = документ[номер_страницы] а = page.get_texttrace() для img в doc.get_page_images(page_num): xref = img[0] # номер внешней ссылки base_image = doc.extract_image(xref) image_bytes = base_image["изображение"] image_filename = f"image_{page_num + 1}_{image_count + 1}.png" путь_файла_изображения = os.path.join(выходная_папка, имя_файла_изображения) с open(image_filepath, «wb») как img_file: img_file.write(байты_изображения) image_count += 1 документ.закрыть() вернуть image_count pdf_file = 'пример.pdf' выходной_каталог = 'выходной_каталог' num_images = extract_images(pdf_file, выходной_каталог) print(f"Извлечено изображений: {num_images}.") Я понятия не имею, как это сделать. Помогите пожалуйста, знатоки.
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»