Извлечение данных из PDFJAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Извлечение данных из PDF

Сообщение Anonymous »

В последнее время работа с большими объемами PDF-файлов становится сложной задачей. Нашей основной задачей является точное извлечение данных из PDF-файлов, и в некоторых случаях объем может достигать 100 000 файлов в одном пакете. OCR на основе Tesseract слишком медленный для этого варианта использования, особенно при наличии файлов смешанного размера, страниц с большим количеством изображений и необходимости извлекать данные из определенных областей каждого документа. Кроме того, мне часто приходится определять, какие страницы необходимо изменить, исходя из инструкций клиента. Я изучаю более быстрые альтернативы и инструменты для оптического распознавания больших объемов данных, идентификации страниц, изменения их порядка и извлечения данных.
Если вы решали подобные проблемы или у вас есть предложения по более эффективным способам их решения, я буду очень признателен за ваши идеи в комментариях.

Подробнее здесь: https://stackoverflow.com/questions/798 ... n-from-pdf
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»