Последовательно извлекайте тексты и изображения с помощью Pymupdf. ⇐ Python
Последовательно извлекайте тексты и изображения с помощью Pymupdf.
Мне нужно последовательно извлечь тексты и изображения с помощью Pymupdf. Поэтому мне нужно знать, в каком текстовом блоке и между каким текстовым блоком находится изображение. Это простой код извлечения изображения.
import fitz # Импортировать PyMuPDF импортировать ОС защита Extract_images (pdf_path, выходная_папка): документ = fitz.open(pdf_path) image_count = 0 если нет os.path.exists(output_folder): os.madeirs(output_folder) для page_num в диапазоне (len(doc)): страница = документ[номер_страницы] а = page.get_texttrace() для img в doc.get_page_images(page_num): xref = img[0] # номер внешней ссылки base_image = doc.extract_image(xref) image_bytes = base_image["изображение"] image_filename = f"image_{page_num + 1}_{image_count + 1}.png" путь_файла_изображения = os.path.join(выходная_папка, имя_файла_изображения) с open(image_filepath, «wb») как img_file: img_file.write(байты_изображения) image_count += 1 документ.закрыть() вернуть image_count pdf_file = 'пример.pdf' выходной_каталог = 'выходной_каталог' num_images = extract_images(pdf_file, выходной_каталог) print(f"Извлечено изображений: {num_images}.") Я понятия не имею, как это сделать. Помогите пожалуйста, знатоки.
Мне нужно последовательно извлечь тексты и изображения с помощью Pymupdf. Поэтому мне нужно знать, в каком текстовом блоке и между каким текстовым блоком находится изображение. Это простой код извлечения изображения.
import fitz # Импортировать PyMuPDF импортировать ОС защита Extract_images (pdf_path, выходная_папка): документ = fitz.open(pdf_path) image_count = 0 если нет os.path.exists(output_folder): os.madeirs(output_folder) для page_num в диапазоне (len(doc)): страница = документ[номер_страницы] а = page.get_texttrace() для img в doc.get_page_images(page_num): xref = img[0] # номер внешней ссылки base_image = doc.extract_image(xref) image_bytes = base_image["изображение"] image_filename = f"image_{page_num + 1}_{image_count + 1}.png" путь_файла_изображения = os.path.join(выходная_папка, имя_файла_изображения) с open(image_filepath, «wb») как img_file: img_file.write(байты_изображения) image_count += 1 документ.закрыть() вернуть image_count pdf_file = 'пример.pdf' выходной_каталог = 'выходной_каталог' num_images = extract_images(pdf_file, выходной_каталог) print(f"Извлечено изображений: {num_images}.") Я понятия не имею, как это сделать. Помогите пожалуйста, знатоки.
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения
Anonymous » » в форуме Python - 0 Ответы
- 18 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения
Anonymous » » в форуме Python - 0 Ответы
- 21 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения
Anonymous » » в форуме Python - 0 Ответы
- 17 Просмотры
-
Последнее сообщение Anonymous
-