Последовательно извлекайте тексты и изображения с помощью Pymupdf.

Последовательно извлекайте тексты и изображения с помощью Pymupdf. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Последовательно извлекайте тексты и изображения с помощью Pymupdf.

Сообщение Anonymous » 08 дек 2023, 10:42

Мне нужно последовательно извлечь тексты и изображения с помощью Pymupdf. Поэтому мне нужно знать, в каком текстовом блоке и между каким текстовым блоком находится изображение. Это простой код извлечения изображения.

import fitz # Импортировать PyMuPDF импортировать ОС защита Extract_images (pdf_path, выходная_папка): документ = fitz.open(pdf_path) image_count = 0 если нет os.path.exists(output_folder): os.madeirs(output_folder) для page_num в диапазоне (len(doc)): страница = документ[номер_страницы] а = page.get_texttrace() для img в doc.get_page_images(page_num): xref = img[0] # номер внешней ссылки base_image = doc.extract_image(xref) image_bytes = base_image["изображение"] image_filename = f"image_{page_num + 1}_{image_count + 1}.png" путь_файла_изображения = os.path.join(выходная_папка, имя_файла_изображения) с open(image_filepath, «wb») как img_file: img_file.write(байты_изображения) image_count += 1 документ.закрыть() вернуть image_count pdf_file = 'пример.pdf' выходной_каталог = 'выходной_каталог' num_images = extract_images(pdf_file, выходной_каталог) print(f"Извлечено изображений: {num_images}.") Я понятия не имею, как это сделать. Помогите пожалуйста, знатоки.

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Python»