Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения

Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения

Цитата

Сообщение Anonymous » 02 апр 2025, 13:54

Код, который я использую для извлечения изображений,-< /p>

Код: Выделить всё

from PIL import Image

def extract_images_from_pdfs(pdf_list):
import fitz  # PyMuPDF

output_dir = "C:/path_to_image"
os.makedirs(output_dir, exist_ok=True)

for pdf_path in pdf_list:
pdf_name = os.path.splitext(os.path.basename(pdf_path))[0]

# Open the PDF
pdf_document = fitz.open(pdf_path)

# Track the count of images extracted per page
image_count = 0

for page_num, page in enumerate(pdf_document):
# Get the images on this page
image_list = page.get_images(full=True)

if not image_list:
print(f"No images found on page {page_num+1} of {pdf_name}")
continue

# Process each image
for img_index, img in enumerate(image_list):
xref = img[0]
base_image = pdf_document.extract_image(xref)

if base_image:
image_bytes = base_image["image"]
image_ext = base_image["ext"]

# Convert bytes to image
image = Image.open(io.BytesIO(image_bytes))

# Save the image
image_name = f"{pdf_name}_image_{image_count}.{image_ext}"
image_path = os.path.join(output_dir, image_name)

image.save(image_path)

image_count += 1

pdf_document.close()
print(f"Extracted {image_count} images from {pdf_name}")

Ввод, pdf_list , это просто список, содержащий все имена моего PDF. /> Извлеченное изображение 2

Ожидаемое изображение:

Может ли быть так, что изображения на PDF зашифрованы/доступны, и есть ли работа для этого.
Любая помощь очень ценится. /> testingpdfexampaper.tiiny.site Это URL для PDF < /p>

Подробнее здесь: https://stackoverflow.com/questions/795 ... put-images

1743591245

Anonymous

 Код, который я использую для извлечения изображений,-< /p>
[code]from PIL import Image

def extract_images_from_pdfs(pdf_list):
import fitz  # PyMuPDF

output_dir = "C:/path_to_image"
os.makedirs(output_dir, exist_ok=True)

for pdf_path in pdf_list:
pdf_name = os.path.splitext(os.path.basename(pdf_path))[0]

# Open the PDF
pdf_document = fitz.open(pdf_path)

# Track the count of images extracted per page
image_count = 0

for page_num, page in enumerate(pdf_document):
# Get the images on this page
image_list = page.get_images(full=True)

if not image_list:
print(f"No images found on page {page_num+1} of {pdf_name}")
continue

# Process each image
for img_index, img in enumerate(image_list):
xref = img[0]
base_image = pdf_document.extract_image(xref)

if base_image:
image_bytes = base_image["image"]
image_ext = base_image["ext"]

# Convert bytes to image
image = Image.open(io.BytesIO(image_bytes))

# Save the image
image_name = f"{pdf_name}_image_{image_count}.{image_ext}"
image_path = os.path.join(output_dir, image_name)

image.save(image_path)

image_count += 1

pdf_document.close()
print(f"Extracted {image_count} images from {pdf_name}")
[/code]
Ввод, pdf_list , это просто список, содержащий все имена моего PDF. />  Извлеченное изображение 2
 
Ожидаемое изображение: 
 
Может ли быть так, что изображения на PDF зашифрованы/доступны, и есть ли работа для этого. 
Любая помощь очень ценится. /> testingpdfexampaper.tiiny.site Это URL для PDF < /p> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79547082/extracting-images-from-a-pdf-using-pymupdf-gives-broken-output-images[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения

Последнее сообщение Anonymous « 31 мар 2025, 23:02
Добавлено в форуме Python

Anonymous » 31 мар 2025, 23:02 » в форуме Python

Код, который я использую для извлечения изображений,
def extract_images_from_pdfs(pdf_list):
import fitz # PyMuPDF

output_dir = C:/Users/ / /image
os.makedirs(output_dir, exist_ok=True)

for pdf_path in pdf_list:
pdf_name =...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
31 мар 2025, 23:02
Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения

Последнее сообщение Anonymous « 01 апр 2025, 00:10
Добавлено в форуме Python

Anonymous » 01 апр 2025, 00:10 » в форуме Python

Код, который я использую для извлечения изображений,
def extract_images_from_pdfs(pdf_list):
import fitz # PyMuPDF

output_dir = C:/Users/ / /image
os.makedirs(output_dir, exist_ok=True)

for pdf_path in pdf_list:
pdf_name =...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
01 апр 2025, 00:10
Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения

Последнее сообщение Anonymous « 01 апр 2025, 00:23
Добавлено в форуме Python

Anonymous » 01 апр 2025, 00:23 » в форуме Python

Код, который я использую для извлечения изображений,
def extract_images_from_pdfs(pdf_list):
import fitz # PyMuPDF

output_dir = C:/Users/ / /image
os.makedirs(output_dir, exist_ok=True)

for pdf_path in pdf_list:
pdf_name =...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
01 апр 2025, 00:23
Извлечение изображений из PDF с использованием pymupdf дает разбитые выходные изображения

Последнее сообщение Anonymous « 02 апр 2025, 09:57
Добавлено в форуме Python

Anonymous » 02 апр 2025, 09:57 » в форуме Python

Код, который я использую для извлечения изображений,-
from PIL import Image

def extract_images_from_pdfs(pdf_list):
import fitz # PyMuPDF

output_dir = C:/path_to_image
os.makedirs(output_dir, exist_ok=True)

for pdf_path in pdf_list:
pdf_name =...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
02 апр 2025, 09:57
Извлечение текста с использованием флагов для выделения жирного/курсивного шрифта с использованием PyMUPDF

Последнее сообщение Anonymous « 29 мар 2024, 11:24
Добавлено в форуме Python

Anonymous » 29 мар 2024, 11:24 » в форуме Python

Я пытаюсь извлечь элементы текста, выделенные жирным шрифтом, из PDF-файлов с помощью PyMUPDF 1.18.14. Я надеялся, что это сработает, поскольку из документации я понимаю, что flags=4 предназначен для жирного шрифта.
page = doc
text =...

0 Ответы

85 Просмотры

Последнее сообщение Anonymous
29 мар 2024, 11:24

Вернуться в «Python»