Используйте ocr в большом PDF-файле (сканированном виде) с 4 столбцами на странице.Python

Программы на Python
Ответить
Anonymous
 Используйте ocr в большом PDF-файле (сканированном виде) с 4 столбцами на странице.

Сообщение Anonymous »

Я работаю над топонимикой во Франции, и мне нужно знать для каждого города его департамент и происхождение названия города. Для этого у меня есть отсканированная книга в формате PDF (700 страниц), в которой указана эта информация. Я представляю одну страницу PDF на прикрепленной картинке. Я пытался использовать ИИ для извлечения этой информации, но это работает не очень хорошо. Я также пытался использовать Python с пакетом pytesseract, но он работает не очень хорошо: происхождение и города перепутаны, многие города отсутствуют. Я столкнулся с несколькими проблемами: во-первых, в книге есть два столбца на странице, поэтому в PDF-файле по 4 столбца на странице, а код AI или Python с трудом определяет, что является новой записью, потому что для объяснения города иногда цитируются другие города. Я хотел бы иметь файл CSV, в котором указаны город, департамент и происхождение, упомянутое для каждого города (например, lat. = latin, pre-celt= pré-celtique и т. д.)
Изображение

Я пытаюсь уже неделю, так что, если у кого-нибудь есть идея, как это сделать, была бы очень полезна.

Подробнее здесь: https://stackoverflow.com/questions/798 ... -per-pages
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»