Масштабирование тряпичной QA с большими документами, таблицами и кусками 30 тыс.+Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Масштабирование тряпичной QA с большими документами, таблицами и кусками 30 тыс.+

Сообщение Anonymous »

Я строю систему QA на основе Rag с использованием Python (No Langchain), Llama (50K Context), PostgreSQL с PGVector и Docking for Parsing. Пользователи могут загружать до 10 больших документов (300+ страниц каждая), часто содержащие множество таблиц и диаграмм. Каждая часть для улучшения поиска, но:
Это слишком дорого, чтобы генерировать резюме LLM для всех 30-километровых разделов.
Таблицы особенно сложны:
Embeddings плохо выполняют структурированные /числовые данные.
Сводные в стиле подключения (например, первые 300 токенсов или использование только что используются идеи. или доказанные стратегии:
повысить точность в начальном поиске в масштабе
обрабатывать контент с высоким содержанием таблицы более эффективно
снизить стоимость при сохранении точности < /p>
Любые идеи, методы или инструменты (кроме Langchain), которые сработали для вас? < /p>

Подробнее здесь: https://stackoverflow.com/questions/796 ... -langchain
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»