Как сохранить структуру документа в Minee docTRPython

Программы на Python
Ответить
Anonymous
 Как сохранить структуру документа в Minee docTR

Сообщение Anonymous »

Я использую docTR для извлечения текста из PDF-файла и последующего помещения данных в базу данных. например, если PDF-файл такой:
Изображение
docTR должен сохранить ту же структуру, чтобы я мог легко извлекать данные, но получаю такие результаты, как эти:

Код: Выделить всё

1)

ABC Receipt
Nature of request
Request Code
status of application

aaaaa

2543522

rejected

observation abc

2)

ABC Receipt
Nature of request
aaaaa
Request Code
2543522
status of application
rejected
observation abc
Эти выходные данные затрудняют извлечение данных с помощью регулярных выражений (я выполняю извлечение данных в Java, а не в Python), так как же получить желаемый результат?

Подробнее здесь: https://stackoverflow.com/questions/788 ... ndee-doctr
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»