Лучший способ обработать 2500 больших PDF-файлов для извлечения конкретных данных? [закрыто]Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Лучший способ обработать 2500 больших PDF-файлов для извлечения конкретных данных? [закрыто]

Сообщение Anonymous »

Я работаю над проектом по обработке 2500 файлов PDF (около 50 страниц каждый). Мне нужно извлечь около 42 конкретных полей из каждого документа (например, название компании, некоторые цифры и проценты), используя языковую модель, такую ​​как GPT, для ответа. эти 42 вопроса.
  • Пользовательское извлечение данных: каждый PDF-файл имеет свою собственную структуру, они не унифицированы, поэтому мне нужно найдите соответствующий текст для каждого вопроса.
  • Ограничения токенов с помощью GPT: после извлечения мне нужно будет отправить текст в GPT для ответа на вопросы, но я Меня беспокоят ограничения на токены из-за размера документа.
  • Автоматизация рабочего процесса. В идеале я хотел бы настроить конвейер для обработки загрузок, извлечения и запросы.
Вопросы:
  • Что такое лучший способ точно извлечь и структурировать эти данные, langchain и openai. Я попробовал сегментацию текста, а затем запрос, но при попытке сегментации для решения проблемы ограничения токенов происходит некоторая потеря данных.
  • Есть предложения? как обрабатывать ограничения токенов при отправке больших фрагментов текста в GPT?
  • Советы по настройке автоматизированного масштабируемого рабочего процесса? В настоящее время я использую langchain.
Спасибо за любую информацию!

Подробнее здесь: https://stackoverflow.com/questions/791 ... extraction
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»