Я работаю над проектом по обработке 2500 файлов PDF (около 50 страниц каждый). Мне нужно извлечь около 42 конкретных полей из каждого документа (например, название компании, некоторые цифры и проценты), используя языковую модель, такую как GPT, для ответа. эти 42 вопроса.
Пользовательское извлечение данных: каждый PDF-файл имеет свою собственную структуру, они не унифицированы, поэтому мне нужно найдите соответствующий текст для каждого вопроса.
Ограничения токенов с помощью GPT: после извлечения мне нужно будет отправить текст в GPT для ответа на вопросы, но я Меня беспокоят ограничения на токены из-за размера документа.
Автоматизация рабочего процесса. В идеале я хотел бы настроить конвейер для обработки загрузок, извлечения и запросы.
Вопросы:
Как можно Я аккуратно извлекаю и структурирую эти данные, langchain и openai. Я попробовал сегментацию текста, а затем запрос, но при попытке сегментации для решения проблемы ограничения токенов происходит некоторая потеря данных.
Как я могу справиться? ограничения токенов при отправке больших фрагментов текста в GPT?
Как настроить автоматизированный масштабируемый рабочий процесс? В настоящее время я использую langchain.
Я работаю над проектом по обработке 2500 файлов PDF (около 50 страниц каждый). Мне нужно извлечь около 42 конкретных полей из каждого документа (например, название компании, некоторые цифры и проценты), используя языковую модель, такую как GPT, для ответа. эти 42 вопроса. [list] [*][b]Пользовательское извлечение данных[/b]: каждый PDF-файл имеет свою собственную структуру, они не унифицированы, поэтому мне нужно найдите соответствующий текст для каждого вопроса. [*][b]Ограничения токенов с помощью GPT[/b]: после извлечения мне нужно будет отправить текст в GPT для ответа на вопросы, но я Меня беспокоят ограничения на токены из-за размера документа. [*][b]Автоматизация рабочего процесса[/b]. В идеале я хотел бы настроить конвейер для обработки загрузок, извлечения и запросы. [/list] [b]Вопросы[/b]: [list] [*]Как можно Я аккуратно извлекаю и структурирую эти данные, langchain и openai. Я попробовал сегментацию текста, а затем запрос, но при попытке сегментации для решения проблемы ограничения токенов происходит некоторая потеря данных. [*]Как я могу справиться? ограничения токенов при отправке больших фрагментов текста в GPT? [*]Как настроить автоматизированный масштабируемый рабочий процесс? В настоящее время я использую langchain. [/list] Спасибо за любую информацию!
Я работаю над проектом по обработке 2500 файлов PDF (около 50 страниц каждый). Мне нужно извлечь около 42 конкретных полей из каждого документа (например, название компании, некоторые цифры и проценты), используя языковую модель, такую как GPT,...
Мне нужны идеи или платформы для работы с кэшированием больших файлов. Цель состоит в том, чтобы избежать повторного вызова удаленного источника данных (службы отдыха) для получения файлов, размер которых составляет несколько сотен мегабайт или даже...
Мне нужны идеи или платформы для кэширования больших файлов. Цель состоит в том, чтобы избежать повторного вызова удаленного источника данных (службы отдыха) для получения файла, размер которого составляет несколько сотен мегабайт или даже гигабайт,...
В моем случае я получу несколько файлов PDF в качестве запроса API. Я использую библиотеку org.apache.pdfbox для объединения файлов PDF и отправки обратно в качестве ответа. Я установил значения outboundHeaders в качестве заголовка в...