Как обработать 2500 больших PDF-файлов для извлечения конкретных данных? [закрыто]

Как обработать 2500 больших PDF-файлов для извлечения конкретных данных? [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как обработать 2500 больших PDF-файлов для извлечения конкретных данных? [закрыто]

Цитата

Сообщение Anonymous » 04 ноя 2024, 06:08

Я работаю над проектом по обработке 2500 файлов PDF (около 50 страниц каждый). Мне нужно извлечь около 42 конкретных полей из каждого документа (например, название компании, некоторые цифры и проценты), используя языковую модель, такую как GPT, для ответа. эти 42 вопроса.

Пользовательское извлечение данных: каждый PDF-файл имеет свою собственную структуру, они не унифицированы, поэтому мне нужно найдите соответствующий текст для каждого вопроса.
Ограничения токенов с помощью GPT: после извлечения мне нужно будет отправить текст в GPT для ответа на вопросы, но я Меня беспокоят ограничения на токены из-за размера документа.
Автоматизация рабочего процесса. В идеале я хотел бы настроить конвейер для обработки загрузок, извлечения и запросы.

Вопросы:

Как можно Я аккуратно извлекаю и структурирую эти данные, langchain и openai. Я попробовал сегментацию текста, а затем запрос, но при попытке сегментации для решения проблемы ограничения токенов происходит некоторая потеря данных.
Как я могу справиться? ограничения токенов при отправке больших фрагментов текста в GPT?
Как настроить автоматизированный масштабируемый рабочий процесс? В настоящее время я использую langchain.

Спасибо за любую информацию!

Подробнее здесь: https://stackoverflow.com/questions/791 ... extraction

1730689710

Anonymous

Я работаю над проектом по обработке 2500 файлов PDF (около 50 страниц каждый). Мне нужно извлечь около 42 конкретных полей из каждого документа (например, название компании, некоторые цифры и проценты), используя языковую модель, такую как GPT, для ответа. эти 42 вопроса.
[list]
[*][b]Пользовательское извлечение данных[/b]: каждый PDF-файл имеет свою собственную структуру, они не унифицированы, поэтому мне нужно найдите соответствующий текст для каждого вопроса.
[*][b]Ограничения токенов с помощью GPT[/b]: после извлечения мне нужно будет отправить текст в GPT для ответа на вопросы, но я Меня беспокоят ограничения на токены из-за размера документа.
[*][b]Автоматизация рабочего процесса[/b]. В идеале я хотел бы настроить конвейер для обработки загрузок, извлечения и запросы.
[/list]
[b]Вопросы[/b]:
[list]
[*]Как можно Я аккуратно извлекаю и структурирую эти данные, langchain и openai. Я попробовал сегментацию текста, а затем запрос, но при попытке сегментации для решения проблемы ограничения токенов происходит некоторая потеря данных.
[*]Как я могу справиться? ограничения токенов при отправке больших фрагментов текста в GPT?
[*]Как настроить автоматизированный масштабируемый рабочий процесс? В настоящее время я использую langchain.
[/list]
Спасибо за любую информацию! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79151420/how-to-process-2500-large-pdfs-for-specific-data-extraction[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Лучший способ обработать 2500 больших PDF-файлов для извлечения конкретных данных? [закрыто]

Последнее сообщение Anonymous « 02 ноя 2024, 22:09
Добавлено в форуме Python

Anonymous » 02 ноя 2024, 22:09 » в форуме Python

Я работаю над проектом по обработке 2500 файлов PDF (около 50 страниц каждый). Мне нужно извлечь около 42 конкретных полей из каждого документа (например, название компании, некоторые цифры и проценты), используя языковую модель, такую как GPT,...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
02 ноя 2024, 22:09
Кэширование больших файлов, чтобы избежать частого удаленного извлечения [закрыто]

Последнее сообщение Anonymous « 30 июл 2024, 22:52
Добавлено в форуме JAVA

Anonymous » 30 июл 2024, 22:52 » в форуме JAVA

Мне нужны идеи или платформы для работы с кэшированием больших файлов. Цель состоит в том, чтобы избежать повторного вызова удаленного источника данных (службы отдыха) для получения файлов, размер которых составляет несколько сотен мегабайт или даже...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 22:52
Кэширование больших файлов, чтобы избежать частого удаленного извлечения

Последнее сообщение Anonymous « 28 июл 2024, 20:19
Добавлено в форуме JAVA

Anonymous » 28 июл 2024, 20:19 » в форуме JAVA

Мне нужны идеи или платформы для кэширования больших файлов. Цель состоит в том, чтобы избежать повторного вызова удаленного источника данных (службы отдыха) для получения файла, размер которого составляет несколько сотен мегабайт или даже гигабайт,...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
28 июл 2024, 20:19
Использование регулярных выражений для извлечения конкретных значений в Java

Последнее сообщение Anonymous « 29 июл 2025, 07:36
Добавлено в форуме JAVA

Anonymous » 29 июл 2025, 07:36 » в форуме JAVA

У меня есть несколько строк в грубой форме:

String s = Rendering content from websiteNAme using user agent userAgentNameWithSpaces ; for user username ; at time someTime ;

Я хочу извлечь значения для websiteName, userAgentNamewithspaces, имя...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
29 июл 2025, 07:36
Ошибка: получение пустого PDF-файла при объединении нескольких PDF-файлов в один PDF-файл с помощью Mule 4? [закрыто]

Последнее сообщение Anonymous « 01 июл 2024, 16:20
Добавлено в форуме JAVA

Anonymous » 01 июл 2024, 16:20 » в форуме JAVA

В моем случае я получу несколько файлов PDF в качестве запроса API. Я использую библиотеку org.apache.pdfbox для объединения файлов PDF и отправки обратно в качестве ответа. Я установил значения outboundHeaders в качестве заголовка в...

0 Ответы

55 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 16:20

Вернуться в «Python»