Я работаю над топонимией во Франции, и мне нужно знать для каждого города его департамент и происхождение названия города. Для этого у меня есть отсканированная книга в формате PDF (700 страниц), в которой указана эта информация. Я представляю одну страницу PDF на прикрепленной картинке. Я пытался использовать ИИ для извлечения этой информации, но это работает не очень хорошо. Я также пытался использовать Python с пакетом pytesseract, но он работает не очень хорошо: происхождение и города перепутаны, многие города отсутствуют. Я столкнулся с несколькими проблемами: во-первых, в книге есть два столбца на странице, поэтому в PDF-файле по 4 столбца на странице, а код AI или Python с трудом определяет, что является новой записью, потому что для объяснения города иногда цитируются другие города. Я хотел бы иметь файл CSV, в котором указаны город, департамент и происхождение, упомянутое для каждого города (например, lat. = latin, pre-celt= pré-celtique и т. д.)
Я пытаюсь уже неделю, так что, если у кого-нибудь есть идея, как это сделать, была бы очень полезна.
Подробнее здесь:
https://stackoverflow.com/questions/798 ... -per-pages