Извлечение данных из PDF - Цифровое Кемерово

Извлечение данных из PDF ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 17 ноя 2025, 12:15

В последнее время работа с большими объемами PDF-файлов становится сложной задачей. Нашей основной задачей является точное извлечение данных из PDF-файлов, и в некоторых случаях объем может достигать 100 000 файлов в одном пакете. OCR на основе Tesseract слишком медленный для этого варианта использования, особенно при наличии файлов смешанного размера, страниц с большим количеством изображений и необходимости извлекать данные из определенных областей каждого документа. Кроме того, мне часто приходится определять, какие страницы необходимо изменить, исходя из инструкций клиента. Я изучаю более быстрые альтернативы и инструменты для оптического распознавания больших объемов данных, идентификации страниц, изменения их порядка и извлечения данных.
Если вы решали подобные проблемы или у вас есть предложения по более эффективным способам их решения, я буду очень признателен за ваши идеи в комментариях.

Подробнее здесь: https://stackoverflow.com/questions/798 ... n-from-pdf

1763370931

Anonymous

В последнее время работа с большими объемами PDF-файлов становится сложной задачей. Нашей основной задачей является точное извлечение данных из PDF-файлов, и в некоторых случаях объем может достигать 100 000 файлов в одном пакете. OCR на основе Tesseract слишком медленный для этого варианта использования, особенно при наличии файлов смешанного размера, страниц с большим количеством изображений и необходимости извлекать данные из определенных областей каждого документа. Кроме того, мне часто приходится определять, какие страницы необходимо изменить, исходя из инструкций клиента. Я изучаю более быстрые альтернативы и инструменты для оптического распознавания больших объемов данных, идентификации страниц, изменения их порядка и извлечения данных.
Если вы решали подобные проблемы или у вас есть предложения по более эффективным способам их решения, я буду очень признателен за ваши идеи в комментариях. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79821921/data-extraction-from-pdf[/url]

Ответить

1 сообщение • Страница 1 из 1