Масштабирование тряпичной QA с большими документами, таблицами и кусками 30 тыс.+

Масштабирование тряпичной QA с большими документами, таблицами и кусками 30 тыс.+ ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Масштабирование тряпичной QA с большими документами, таблицами и кусками 30 тыс.+

Цитата

Сообщение Anonymous » 02 июн 2025, 19:30

Я строю систему QA на основе Rag с использованием Python (No Langchain), Llama (50K Context), PostgreSQL с PGVector и Docking for Parsing. Пользователи могут загружать до 10 больших документов (300+ страниц каждая), часто содержащие множество таблиц и диаграмм. Каждая часть для улучшения поиска, но:
Это слишком дорого, чтобы генерировать резюме LLM для всех 30-километровых разделов.
Таблицы особенно сложны:
Embeddings плохо выполняют структурированные /числовые данные.
Сводные в стиле подключения (например, первые 300 токенсов или использование только что используются идеи. или доказанные стратегии:
повысить точность в начальном поиске в масштабе
обрабатывать контент с высоким содержанием таблицы более эффективно
снизить стоимость при сохранении точности < /p>
Любые идеи, методы или инструменты (кроме Langchain), которые сработали для вас? < /p>

Подробнее здесь: https://stackoverflow.com/questions/796 ... -langchain

1748881837

Anonymous

 Я строю систему QA на основе Rag с использованием Python (No Langchain), Llama (50K Context), PostgreSQL с PGVector и Docking for Parsing. Пользователи могут загружать до 10 больших документов (300+ страниц каждая), часто содержащие множество таблиц и диаграмм. Каждая часть для улучшения поиска, но:
Это слишком дорого, чтобы генерировать резюме LLM для всех 30-километровых разделов.
Таблицы особенно сложны:
Embeddings плохо выполняют структурированные /числовые данные.
Сводные в стиле подключения (например, первые 300 токенсов или использование только что используются идеи. или доказанные стратегии:
повысить точность в начальном поиске в масштабе
обрабатывать контент с высоким содержанием таблицы более эффективно
снизить стоимость при сохранении точности < /p>
Любые идеи, методы или инструменты (кроме Langchain), которые сработали для вас? < /p> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79650011/scaling-rag-qa-with-large-docs-tables-and-30k-chunks-no-langchain[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Мне нужна помощь в получении токенизатора для модели с обнимающимся лицом, обнимающей лицо. Я иду с документами Langchai

Последнее сообщение Anonymous « 13 фев 2025, 00:07
Добавлено в форуме Python

Anonymous » 13 фев 2025, 00:07 » в форуме Python

Я работаю над учебным пособием по документации Langchains, найденной здесь https: //python.langchain.com/docs/tutorials/retrivers/ Мне нужна помощь с получением токенизатора от обнимающегося лица для использования для функции, которые не...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 00:07
Как вычислить сходство между двумя текстовыми документами?

Последнее сообщение Anonymous « 14 мар 2025, 03:25
Добавлено в форуме Python

Anonymous » 14 мар 2025, 03:25 » в форуме Python

Я хочу взять два документа и определить, насколько они похожи. Любой язык программирования, если в порядке, но я предпочитаю Python.

Подробнее здесь:

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
14 мар 2025, 03:25
Есть ли какой -либо модуль или встроенная функция для управления документами Mongo DB с помощью Java

Последнее сообщение Anonymous « 01 июн 2025, 10:27
Добавлено в форуме JAVA

Anonymous » 01 июн 2025, 10:27 » в форуме JAVA

Для документов для Mongo DB с Java, есть ли какая-либо коллекция или функция, похожая на модуль «Историческая коллекция», которая доступна для Python, как указано в историческом собрании? Или похоже на монгуз версию, версированную монгуз,
Ищу...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
01 июн 2025, 10:27
Есть ли какой -либо модуль или встроенная функция для управления документами Mongo DB с помощью Java

Последнее сообщение Anonymous « 01 июн 2025, 10:27
Добавлено в форуме Python

Anonymous » 01 июн 2025, 10:27 » в форуме Python

Для документов для Mongo DB с Java, есть ли какая-либо коллекция или функция, похожая на модуль «Историческая коллекция», которая доступна для Python, как указано в историческом собрании? Или похоже на монгуз версию, версированную монгуз,
Ищу...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
01 июн 2025, 10:27
Невозможно использовать .dt.hours, .columns и другие файлы . функции с кусками (панды)

Последнее сообщение Anonymous « 15 июл 2024, 08:38
Добавлено в форуме Python

Anonymous » 15 июл 2024, 08:38 » в форуме Python

Я пытаюсь создать новый столбец для своей базы данных, но мне не удается использовать .columns, .dt.hour и некоторые другие функции для фрагментов. Я попробовал тот же код в Excel меньшего размера, который не требует использования фрагментов, и он у...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
15 июл 2024, 08:38

Вернуться в «Python»