Я создаю локальную систему обработки документов, используя:
- OCR для отсканированных PDF-файлов
- Внедрения для индексирования
- RAG для поиска и ответов на вопросы
Однако я наблюдаю проблемы с качеством извлечения и задержкой при объединении результатов OCR с встраиваниями.
Для пример:
- Текст OCR зашумлен и влияет на качество внедрения.
- Результаты поиска непоследовательны по схожим запросам.
- Производительность снижается при работе с большими наборами документов.
Каковы общие причины этих проблем в таком конвейере и как их можно устранить?
Я создаю локальную систему обработки документов, используя: - OCR для отсканированных PDF-файлов - Внедрения для индексирования - RAG для поиска и ответов на вопросы Однако я наблюдаю проблемы с качеством извлечения и задержкой при объединении результатов OCR с встраиваниями. Для пример: - Текст OCR зашумлен и влияет на качество внедрения. - Результаты поиска непоследовательны по схожим запросам. - Производительность снижается при работе с большими наборами документов. Каковы общие причины этих проблем в таком конвейере и как их можно устранить?