Я студент университета в настоящее время веду проект AI (LLM) в моей школе. Моя цель - извлечь этот текст и сохранить его в векторной базе данных для использования с большой языковой моделью (LLM). Тем не менее, я сталкиваюсь с серьезными проблемами с извлечением OCR и текста. Это стало основным препятствием для интеграции обучения OCR и LLM в наш рабочий процесс обслуживания. К сожалению, результаты были либо нечитаемыми, либо полностью отсутствующей корейской поддержки персонажа.
Подробнее здесь: https://stackoverflow.com/questions/796 ... -with-llms
Как я могу точно извлечь корейский текст из PDF-файлов на основе изображений для использования с LLMS? [закрыто] ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение