Стратегии обработки вывода запроса OCR через API Python LLMWhisperer

Стратегии обработки вывода запроса OCR через API Python LLMWhisperer ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Стратегии обработки вывода запроса OCR через API Python LLMWhisperer

Цитата

Сообщение Anonymous » 28 окт 2024, 16:43

Я пытаюсь использовать LLMWhisperer для распознавания документа на иностранном языке. В языке используются специальные символы, но его можно полностью выразить с помощью UTF-8. Использование LLMWhisperer через опцию «игровая площадка» в браузере прекрасно обрабатывает распознавание текста, но может обрабатывать только 4 страницы одновременно. Моя цель — использовать клиент LLMWhisperer Python для одновременной обработки всего документа. Однако во всех результатах, которые я генерирую с помощью Python, специальные символы заменены неправильными символами.
Учитывая качество результатов в браузере, я считаю, что проблема связана не с LLMWhisperer, а со всеми последующие действия, которые я совершаю для записи вывода запроса в файл. Кроме того, команда шепота(), которая отправляет запрос OCR и возвращает результат, не имеет параметров, связанных с языком или кодировкой.
Я неопытный программист и не понимаю, что мне делать. может отсутствовать. Может ли кто-нибудь подсказать, как скорректировать мою стратегию, чтобы правильно сохранить специальные символы?

Код: Выделить всё

from unstract.llmwhisperer.client import LLMWhispererClient

client = LLMWhispererClient(base_url="https://llmwhisperer-api.unstract.com/v1", api_key="my-api-key")

whisper = client.whisper(file_path="my-file-path",
processing_mode="ocr", pages_to_extract="1")

extracted_text = whisper["extracted_text"]

with open("transcript.txt", "w", encoding='utf8') as file:
file.write(extracted_text)

whisper() возвращает результат в виде словаря с текстом в поле «извлеченный текст».

Подробнее здесь: https://stackoverflow.com/questions/791 ... isperer-py

1730123025

Anonymous

Я пытаюсь использовать LLMWhisperer для распознавания документа на иностранном языке. В языке используются специальные символы, но его можно полностью выразить с помощью UTF-8. Использование LLMWhisperer через опцию «игровая площадка» в браузере прекрасно обрабатывает распознавание текста, но может обрабатывать только 4 страницы одновременно. Моя цель — использовать клиент LLMWhisperer Python для одновременной обработки всего документа. Однако во всех результатах, которые я генерирую с помощью Python, специальные символы заменены неправильными символами.
Учитывая качество результатов в браузере, я считаю, что проблема связана не с LLMWhisperer, а со всеми последующие действия, которые я совершаю для записи вывода запроса в файл. Кроме того, команда шепота(), которая отправляет запрос OCR и возвращает результат, не имеет параметров, связанных с языком или кодировкой.
Я неопытный программист и не понимаю, что мне делать. может отсутствовать. Может ли кто-нибудь подсказать, как скорректировать мою стратегию, чтобы правильно сохранить специальные символы?
[code]from unstract.llmwhisperer.client import LLMWhispererClient

client = LLMWhispererClient(base_url="https://llmwhisperer-api.unstract.com/v1", api_key="my-api-key")

whisper = client.whisper(file_path="my-file-path",
processing_mode="ocr", pages_to_extract="1")

extracted_text = whisper["extracted_text"]

with open("transcript.txt", "w", encoding='utf8') as file:
file.write(extracted_text)
[/code]
whisper() возвращает результат в виде словаря с текстом в поле «извлеченный текст». 

Подробнее здесь: [url]https://stackoverflow.com/questions/79131628/strategies-for-handling-the-output-of-an-ocr-request-through-the-llmwhisperer-py[/url]