Стратегии обработки вывода запроса OCR через API Python LLMWhispererPython

Программы на Python
Ответить
Anonymous
 Стратегии обработки вывода запроса OCR через API Python LLMWhisperer

Сообщение Anonymous »

Я пытаюсь использовать LLMWhisperer для распознавания документа на иностранном языке. В языке используются специальные символы, но его можно полностью выразить с помощью UTF-8. Использование LLMWhisperer через опцию «игровая площадка» в браузере прекрасно обрабатывает распознавание текста, но может обрабатывать только 4 страницы одновременно. Моя цель — использовать клиент LLMWhisperer Python для одновременной обработки всего документа. Однако во всех результатах, которые я генерирую с помощью Python, специальные символы заменены неправильными символами.
Учитывая качество результатов в браузере, я считаю, что проблема связана не с LLMWhisperer, а со всеми последующие действия, которые я совершаю для записи вывода запроса в файл. Кроме того, команда шепота(), которая отправляет запрос OCR и возвращает результат, не имеет параметров, связанных с языком или кодировкой.
Я неопытный программист и не понимаю, что мне делать. может отсутствовать. Может ли кто-нибудь подсказать, как скорректировать мою стратегию, чтобы правильно сохранить специальные символы?

Код: Выделить всё

from unstract.llmwhisperer.client import LLMWhispererClient

client = LLMWhispererClient(base_url="https://llmwhisperer-api.unstract.com/v1", api_key="my-api-key")

whisper = client.whisper(file_path="my-file-path",
processing_mode="ocr", pages_to_extract="1")

extracted_text = whisper["extracted_text"]

with open("transcript.txt", "w", encoding='utf8') as file:
file.write(extracted_text)
whisper() возвращает результат в виде словаря с текстом в поле «извлеченный текст».

Подробнее здесь: https://stackoverflow.com/questions/791 ... isperer-py
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»