Используйте ocr в большом PDF-файле (сканированном виде) с 4 столбцами на странице.

Используйте ocr в большом PDF-файле (сканированном виде) с 4 столбцами на странице. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Используйте ocr в большом PDF-файле (сканированном виде) с 4 столбцами на странице.

Цитата

Сообщение Anonymous » 10 фев 2026, 15:18

Я работаю над топонимикой во Франции, и мне нужно знать для каждого города его департамент и происхождение названия города. Для этого у меня есть отсканированная книга в формате PDF (700 страниц), в которой указана эта информация. Я представляю одну страницу PDF на прикрепленной картинке. Я пытался использовать ИИ для извлечения этой информации, но это работает не очень хорошо. Я также пытался использовать Python с пакетом pytesseract, но он работает не очень хорошо: происхождение и города перепутаны, многие города отсутствуют. Я столкнулся с несколькими проблемами: во-первых, в книге есть два столбца на странице, поэтому в PDF-файле по 4 столбца на странице, а код AI или Python с трудом определяет, что является новой записью, потому что для объяснения города иногда цитируются другие города. Я хотел бы иметь файл CSV, в котором указаны город, департамент и происхождение, упомянутое для каждого города (например, lat. = latin, pre-celt= pré-celtique и т. д.)

Я пытаюсь уже неделю, так что, если у кого-нибудь есть идея, как это сделать, была бы очень полезна.

Подробнее здесь: https://stackoverflow.com/questions/798 ... -per-pages

1770725927

Anonymous

Я работаю над топонимикой во Франции, и мне нужно знать для каждого города его департамент и происхождение названия города. Для этого у меня есть отсканированная книга в формате PDF (700 страниц), в которой указана эта информация. Я представляю одну страницу PDF на прикрепленной картинке. Я пытался использовать ИИ для извлечения этой информации, но это работает не очень хорошо. Я также пытался использовать Python с пакетом pytesseract, но он работает не очень хорошо: происхождение и города перепутаны, многие города отсутствуют. Я столкнулся с несколькими проблемами: во-первых, в книге есть два столбца на странице, поэтому в PDF-файле по 4 столбца на странице, а код AI или Python с трудом определяет, что является новой записью, потому что для объяснения города иногда цитируются другие города. Я хотел бы иметь файл CSV, в котором указаны город, департамент и происхождение, упомянутое для каждого города (например, lat. = latin, pre-celt= pré-celtique и т. д.)
[img]https://i.sstatic.net/qkeKyHXy.png[/img]

Я пытаюсь уже неделю, так что, если у кого-нибудь есть идея, как это сделать, была бы очень полезна. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79886552/use-ocr-on-a-large-pdf-of-scans-with-4-columns-per-pages[/url]

Ответить

1 сообщение • Страница 1 из 1