Изображение в кодировке Base64 частично отображается при декодировании в UTF-8 (вопрос, связанный с AI)

Изображение в кодировке Base64 частично отображается при декодировании в UTF-8 (вопрос, связанный с AI) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Изображение в кодировке Base64 частично отображается при декодировании в UTF-8 (вопрос, связанный с AI)

Цитата

Сообщение Anonymous » 22 окт 2024, 18:28

Я тестирую систему обратной связи с искусственным интеллектом, которая анализирует пакеты документов (в основном файлы формата PDF). Он работает путем суммирования каждой страницы, а затем объединения всех сводок в одно связное резюме.
Это мой код, который обрабатывает сводки. Я проверил документацию Gemini 1.5 Flash API и обнаружил некоторые ограничения, связанные с длиной или разрешением, с которым изображение (в виде строки base64) передается в Gemini/Vertex. ИИ. Я работаю с файлами изображений размером около 2 МБ.

Код: Выделить всё

# Function to generate image summaries using Gemini API
def generate_image_summary(image_path):
global summaryllm

try:
# Read image with PIL first to ensure it's valid
with Image.open(image_path) as img:
# Convert to RGB if necessary
if img.mode not in ('RGB', 'RGBA'):
img = img.convert('RGB')

# Save to bytes with controlled settings
buffer = io.BytesIO()
img.save(
buffer,
format="PNG",
optimize=True,
)
# Get binary data
binary_data = buffer.getvalue()
#buffer.seek(0)
#image_bytes = buffer.read()

# Encode to base64 with proper padding
base64_image = base64.b64encode(binary_data).decode('utf-8')

# Ensure proper MIME type in data URL
image_url = f"data:image/png;base64,{base64_image}"
print("The image URL is:", image_url)

# Validate the base64 string
try:
# Test decode to verify the base64 string is valid
# base64.b64decode(base64_image)
test_decode = base64.b64decode(base64_image)
# Verify the decoded data matches the original
if test_decode != binary_data:
raise ValueError("Base64 encoding/decoding verification failed")
except Exception as e:
raise ValueError(f"Invalid base64 encoding: {str(e)}")

summary = summaryllm.invoke(
[
HumanMessage(
content=[
{"type": "text", "text": summary_prompt},
{"type": "image_url", "image_url": image_url},
]
)
]
)
return summary.content
except Exception as e:
st.error(f"Error processing image {image_path}: {str(e)}")
return None

# Read the image from the file and convert it to Base64
#with open(image_path, "rb") as img_file:
#buffer = img_file.read()
#base64_image = base64.b64encode(buffer).decode("utf-8")

#image_url = f"data:image/png;base64,{base64_image}"
#print("The image URL is:", image_url)

#summary = summaryllm.invoke(
# [
#HumanMessage(
#content=[
#{"type": "text", "text": summary_prompt},
#{"type": "image_url", "image_url": image_url},
#]
#)
#]
#)
#return summary.content

# Function to generate an overall summary of image summaries
def generate_overall_summary(image_summaries):
global summaryllm

# Combine all image summaries into a single text
combined_summaries = "\n\n".join([doc.page_content for doc in image_summaries])

message = HumanMessage(
content=[
{"type": "text", "text": overallsummary_prompt},
{"type": "text", "text": f"{combined_summaries}"}
]
)

# Generate the summary using the LLM
overall_summary = summaryllm.invoke([message])

return overall_summary.content

Сначала я использовал fitz для обработки изображений, но после нескольких неудачных попыток получить файл обрезанного изображения я переключился на pdf2image, чтобы выполнить тяжелую работу с точки зрения страниц. извлечение/обработка изображений. Я подозреваю, что проблема заключается в ошибочном преобразовании файла изображения в base64, что может быть связано с разрешением изображения или тем, как я обрабатываю преобразования base64.
Мой процесс преобразования base64 начинается с открытие файла с помощью метода io или BytesIO. Это показано в этом фрагменте кода:

Код: Выделить всё

# Function to save a PDF page as an image
def save_pdf_page_as_image(pdf_path, output_folder, page_index, image_hashes, poppler_path):
try:
images = convert_from_path(pdf_path, first_page=page_index + 1, last_page=page_index + 1, poppler_path=poppler_path, fmt="PNG", dpi=300)
if not images:
raise ValueError("No images generated from PDF.")
except Exception as e:
st.error(f"Error processing PDF page: {e}")
return None

image = images[0]  # Get the single page we are processing

# Ensure image is in RGB mode
if image.mode != 'RGB':
image = image.convert('RGB')

# Convert image to bytes for hashing
image_bytes_io = io.BytesIO()
image.save(image_bytes_io,
format="PNG",
optimize=True
)

image_bytes = image_bytes_io.getvalue()
# Compute image hash for uniqueness
image_hash = hashlib.md5(image_bytes).hexdigest()

if image_hash not in image_hashes:
# Save the image locally
image_name = f"{os.path.splitext(os.path.basename(pdf_path))[0]}_page{page_index + 1}_image.png"
image_path = os.path.join(output_folder, image_name)
#image.save(image_path)

# Save the image to disk with the same settings
with open(image_path, 'wb') as f:
f.write(image_bytes)

#image.save(
#image_path,
#format="PNG",
#optimize=True,
#quality=95
#)

# Add hash to the list to avoid duplicates
image_hashes.append(image_hash)
# Return the image path (no Base64 generation here)
return image_path
return None

Для более подробного контекста/обзора основной функции она показана здесь. Я разрешил пользователю загрузить свой файл, который будет сохранен и временно открыт для обработки. После завершения сводки файл закрывается и удаляется. Остальная часть кода сосредоточена на обобщении страниц, а затем на обобщении сводок для получения подробного, но краткого обзора документа.

Код: Выделить всё

@st.cache_resource(show_spinner=False)
def process_and_embed_assignments(assignment_batches):
global embeddings

for pdfs in assignment_batches:
# Initialize empty lists for the current function's scope.
image_paths = []
image_hashes = []
image_summaries = []

temp_pdf_path = f"./{pdfs.name}"
with open(temp_pdf_path, mode='wb') as w:
w.write(pdfs.getvalue())

#Extract images from the PDF
pdf_name = os.path.splitext(os.path.basename(temp_pdf_path))[0]

# Define the folder to save images
output_folder = f"Images//{pdf_name}"
os.makedirs(output_folder, exist_ok=True)

# Iterate over each page and save it as an image using pdf2image
pdf_info = convert_from_path(temp_pdf_path, poppler_path=popular_path)
total_pages = len(pdf_info)
for page_index in range(total_pages):
image_path = save_pdf_page_as_image(temp_pdf_path, output_folder, page_index, image_hashes, popular_path)
if image_path:
image_paths.append(image_path)

# remove temporary pdf
os.remove(f"./{pdfs.name}")

# Generate summaries for the extracted images
# for image_path in image_paths:
for page_index, images in enumerate(image_paths):
image_name = f"{pdf_name}_page_{page_index + 1}.png"
if os.path.exists(image_path) and os.path.getsize(image_path) > 0:
# Process image
summary = generate_image_summary(image_path)
else:
st.error(f"Invalid or empty image file: {image_path}")
continue
summary = generate_image_summary(images)
document = Document(
page_content=summary,
metadata={"name": image_name}
)
image_summaries.append(document)
time.sleep(5)  # Adjust the sleep time as needed

# Generate a summary of the summaries for the entire PDF
overall_summary_content = generate_overall_summary(image_summaries)
overall_summary_document = Document(
page_content=overall_summary_content,
metadata={"name": f"{pdf_name}_overall_summary"}  # Metadata for the overall summary
)
# Add the overall summary to the image_summaries list
image_summaries.append(overall_summary_document)

Проблема возникает при отладке кода. Сводки и извлечение/обработка изображений не вызывают каких-либо исключений/ошибок, однако, когда я вызывал свою векторную базу данных для поиска, я заметил, что в некоторых документах были описания, в которых Gemini не нашел «никаких диаграмм или изображений, а было дано только текстовое описание». ". Я углубился в свои строки base64 и обнаружил, что они сильно отличаются по способу отображения. Ниже я показал два примера.
Обратили внимание, что вся страница не отображается? Как показано, загружается только небольшая часть заголовка.
Сравните это с декодированной строкой base64, которая визуализирует/отображает всю страницу (небольшая цензура из соображений незначительной конфиденциальности
Я не знаю, как поступить. Я несколько раз перезапустил свой код, чтобы проверить, решит ли проблему кодирование строки с помощью значения байтов, растрового изображения или локального пути к изображению, но ничего не помогло.
/>P.S. Я использовал Claude, ChatGPT и Perplexity, чтобы предложить идеи о том, как изменить мой код, поэтому воспринимайте любой код, который я дал, как недоверие. Система обратной связи была создана для локального выполнения всех преобразований и извлечений. , отсюда и жестко запрограммированный характер моей нынешней системы.

Подробнее здесь: https://stackoverflow.com/questions/791 ... lated-ques

1729610904

Anonymous

Я тестирую систему обратной связи с искусственным интеллектом, которая анализирует пакеты документов (в основном файлы формата PDF). Он работает путем суммирования каждой страницы, а затем объединения всех сводок в одно связное резюме.
Это мой код, который обрабатывает сводки. Я проверил документацию Gemini 1.5 Flash API и обнаружил некоторые ограничения, связанные с длиной или разрешением, с которым изображение (в виде строки base64) передается в Gemini/Vertex. ИИ. Я работаю с файлами изображений размером около 2 МБ.
[code]# Function to generate image summaries using Gemini API
def generate_image_summary(image_path):
global summaryllm

try:
# Read image with PIL first to ensure it's valid
with Image.open(image_path) as img:
# Convert to RGB if necessary
if img.mode not in ('RGB', 'RGBA'):
img = img.convert('RGB')

# Save to bytes with controlled settings
buffer = io.BytesIO()
img.save(
buffer,
format="PNG",
optimize=True,
)
# Get binary data
binary_data = buffer.getvalue()
#buffer.seek(0)
#image_bytes = buffer.read()

# Encode to base64 with proper padding
base64_image = base64.b64encode(binary_data).decode('utf-8')

# Ensure proper MIME type in data URL
image_url = f"data:image/png;base64,{base64_image}"
print("The image URL is:", image_url)

# Validate the base64 string
try:
# Test decode to verify the base64 string is valid
# base64.b64decode(base64_image)
test_decode = base64.b64decode(base64_image)
# Verify the decoded data matches the original
if test_decode != binary_data:
raise ValueError("Base64 encoding/decoding verification failed")
except Exception as e:
raise ValueError(f"Invalid base64 encoding: {str(e)}")

summary = summaryllm.invoke(
[
HumanMessage(
content=[
{"type": "text", "text": summary_prompt},
{"type": "image_url", "image_url": image_url},
]
)
]
)
return summary.content
except Exception as e:
st.error(f"Error processing image {image_path}: {str(e)}")
return None

# Read the image from the file and convert it to Base64
#with open(image_path, "rb") as img_file:
#buffer = img_file.read()
#base64_image = base64.b64encode(buffer).decode("utf-8")

#image_url = f"data:image/png;base64,{base64_image}"
#print("The image URL is:", image_url)

#summary = summaryllm.invoke(
# [
#HumanMessage(
#content=[
#{"type": "text", "text": summary_prompt},
#{"type": "image_url", "image_url": image_url},
#]
#)
#]
#)
#return summary.content

# Function to generate an overall summary of image summaries
def generate_overall_summary(image_summaries):
global summaryllm

# Combine all image summaries into a single text
combined_summaries = "\n\n".join([doc.page_content for doc in image_summaries])

message = HumanMessage(
content=[
{"type": "text", "text": overallsummary_prompt},
{"type": "text", "text": f"{combined_summaries}"}
]
)

# Generate the summary using the LLM
overall_summary = summaryllm.invoke([message])

return overall_summary.content
[/code]
Сначала я использовал fitz для обработки изображений, но после нескольких неудачных попыток получить файл обрезанного изображения я переключился на pdf2image, чтобы выполнить тяжелую работу с точки зрения страниц. извлечение/обработка изображений.  Я подозреваю, что проблема заключается в ошибочном преобразовании файла изображения в base64, что может быть связано с разрешением изображения или тем, как я обрабатываю преобразования base64.
Мой процесс преобразования base64 начинается с открытие файла с помощью метода io или BytesIO. Это показано в этом фрагменте кода:
[code]# Function to save a PDF page as an image
def save_pdf_page_as_image(pdf_path, output_folder, page_index, image_hashes, poppler_path):
try:
images = convert_from_path(pdf_path, first_page=page_index + 1, last_page=page_index + 1, poppler_path=poppler_path, fmt="PNG", dpi=300)
if not images:
raise ValueError("No images generated from PDF.")
except Exception as e:
st.error(f"Error processing PDF page: {e}")
return None

image = images[0]  # Get the single page we are processing

# Ensure image is in RGB mode
if image.mode != 'RGB':
image = image.convert('RGB')

# Convert image to bytes for hashing
image_bytes_io = io.BytesIO()
image.save(image_bytes_io,
format="PNG",
optimize=True
)

image_bytes = image_bytes_io.getvalue()
# Compute image hash for uniqueness
image_hash = hashlib.md5(image_bytes).hexdigest()

if image_hash not in image_hashes:
# Save the image locally
image_name = f"{os.path.splitext(os.path.basename(pdf_path))[0]}_page{page_index + 1}_image.png"
image_path = os.path.join(output_folder, image_name)
#image.save(image_path)

# Save the image to disk with the same settings
with open(image_path, 'wb') as f:
f.write(image_bytes)

#image.save(
#image_path,
#format="PNG",
#optimize=True,
#quality=95
#)

# Add hash to the list to avoid duplicates
image_hashes.append(image_hash)
# Return the image path (no Base64 generation here)
return image_path
return None
[/code]
Для более подробного контекста/обзора основной функции она показана здесь. Я разрешил пользователю загрузить свой файл, который будет сохранен и временно открыт для обработки. После завершения сводки файл закрывается и удаляется.  Остальная часть кода сосредоточена на обобщении страниц, а затем на обобщении сводок для получения подробного, но краткого обзора документа.
[code]@st.cache_resource(show_spinner=False)
def process_and_embed_assignments(assignment_batches):
global embeddings

for pdfs in assignment_batches:
# Initialize empty lists for the current function's scope.
image_paths = []
image_hashes = []
image_summaries = []

temp_pdf_path = f"./{pdfs.name}"
with open(temp_pdf_path, mode='wb') as w:
w.write(pdfs.getvalue())

#Extract images from the PDF
pdf_name = os.path.splitext(os.path.basename(temp_pdf_path))[0]

# Define the folder to save images
output_folder = f"Images//{pdf_name}"
os.makedirs(output_folder, exist_ok=True)

# Iterate over each page and save it as an image using pdf2image
pdf_info = convert_from_path(temp_pdf_path, poppler_path=popular_path)
total_pages = len(pdf_info)
for page_index in range(total_pages):
image_path = save_pdf_page_as_image(temp_pdf_path, output_folder, page_index, image_hashes, popular_path)
if image_path:
image_paths.append(image_path)

# remove temporary pdf
os.remove(f"./{pdfs.name}")

# Generate summaries for the extracted images
# for image_path in image_paths:
for page_index, images in enumerate(image_paths):
image_name = f"{pdf_name}_page_{page_index + 1}.png"
if os.path.exists(image_path) and os.path.getsize(image_path) > 0:
# Process image
summary = generate_image_summary(image_path)
else:
st.error(f"Invalid or empty image file: {image_path}")
continue
summary = generate_image_summary(images)
document = Document(
page_content=summary,
metadata={"name": image_name}
)
image_summaries.append(document)
time.sleep(5)  # Adjust the sleep time as needed

# Generate a summary of the summaries for the entire PDF
overall_summary_content = generate_overall_summary(image_summaries)
overall_summary_document = Document(
page_content=overall_summary_content,
metadata={"name": f"{pdf_name}_overall_summary"}  # Metadata for the overall summary
)
# Add the overall summary to the image_summaries list
image_summaries.append(overall_summary_document)
[/code]
Проблема возникает при отладке кода. Сводки и извлечение/обработка изображений не вызывают каких-либо исключений/ошибок, однако, когда я вызывал свою векторную базу данных для поиска, я заметил, что в некоторых документах были описания, в которых Gemini не нашел «никаких диаграмм или изображений, а было дано только текстовое описание». ". Я углубился в свои строки base64 и обнаружил, что они сильно отличаются по способу отображения. Ниже я показал два примера.
Обратили внимание, что вся страница не отображается? Как показано, загружается только небольшая часть заголовка.
Сравните это с декодированной строкой base64, которая визуализирует/отображает всю страницу (небольшая цензура из соображений незначительной конфиденциальности
Я не знаю, как поступить. Я несколько раз перезапустил свой код, чтобы проверить, решит ли проблему кодирование строки с помощью значения байтов, растрового изображения или локального пути к изображению, но ничего не помогло.
/>P.S. Я использовал Claude, ChatGPT и Perplexity, чтобы предложить идеи о том, как изменить мой код, поэтому воспринимайте любой код, который я дал, как недоверие. Система обратной связи была создана для локального выполнения всех преобразований и извлечений. , отсюда и жестко запрограммированный характер моей нынешней системы. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79114827/base64-encoded-image-partially-displayed-upon-decoding-in-utf-8-ai-related-ques[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

OutOfMemoryError при декодировании и кодировании строки Base64 в растровое изображение

Последнее сообщение Anonymous « 01 июл 2024, 12:09
Добавлено в форуме JAVA

Anonymous » 01 июл 2024, 12:09 » в форуме JAVA

Я пытаюсь декодировать и закодировать растровое изображение. На некоторых устройствах он работает отлично, а на других нет. Я загружаю строку Base64 на сервер и получаю строку Base64 с сервера. Я нашел различные решения, но до сих пор не могу решить...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 12:09
OutOfMemoryError при декодировании и кодировании строки Base64 в растровое изображение

Последнее сообщение Anonymous « 01 июл 2024, 12:09
Добавлено в форуме Android

Anonymous » 01 июл 2024, 12:09 » в форуме Android

Я пытаюсь декодировать и закодировать растровое изображение. На некоторых устройствах он работает отлично, а на других нет. Я загружаю строку Base64 на сервер и получаю строку Base64 с сервера. Я нашел различные решения, но до сих пор не могу решить...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 12:09
Изображение в кодировке base64 не отображается в сообщении электронной почты [закрыто]

Последнее сообщение Anonymous « 03 июл 2024, 10:57
Добавлено в форуме Php

Anonymous » 03 июл 2024, 10:57 » в форуме Php

Я использую php laravel и кодировку base64 для изображения для отправки почты. Но закодированное изображение не отображается по электронной почте.
Я получаю значение закодированного изображения для сохранения в переменной и помещаю переменную в тег...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
03 июл 2024, 10:57
Python: проигнорировать ошибку «неверная заполнение» при декодировании Base64

Последнее сообщение Anonymous « 11 мар 2025, 17:18
Добавлено в форуме Python

Anonymous » 11 мар 2025, 17:18 » в форуме Python

У меня есть некоторые данные, которые кодируются Base64, которые я хочу преобразовать обратно в двоичный файл, даже если в нем есть ошибка заполнения. Если я использую
base64.decodestring(b64_string)

Это повышает ошибку «неверной накладки». Есть...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
11 мар 2025, 17:18
Как я могу использовать изображение в кодировке Base64 в текстовом файле в качестве изображения HTML?

Последнее сообщение Гость « 20 сен 2023, 21:21
Добавлено в форуме Javascript

Гость » 20 сен 2023, 21:21 » в форуме Javascript

У меня есть несколько изображений, сохраненных в виде BLOB-объектов Base64 в удаленном хранилище. В Это В я л л л О О к а т О н Это я н п а р т я с в л а р : л л О р к с я р . т Икс т д а т а : я м а г Это / дж п Это г ; б а с Это 6 4 , / я дж / 4 А...

0 Ответы

98 Просмотры

Последнее сообщение Гость
20 сен 2023, 21:21

Вернуться в «Python»