Мне Я использовал ABBY FineReader Online, который отлично справляется со своей задачей, но я ищу решение, которое можно реализовать с помощью Windows Python
У меня есть проведен подробный анализ, и ниже приведены ссылки, которые приблизились к тому, что Я хочу, но не совсем:
Отсканированное изображение/PDF в изображение/PDF с возможностью поиска
Рекомендуется использовать Сценарий Ghost сначала преобразует его в изображение, а затем напрямую преобразует в текст. Я не верю, что tesseract преобразует PDF-файлы, не доступные для поиска, в PDF-файлы с возможностью поиска.
Преобразование PDF-файла с возможностью поиска в PDF-файл без поиска
Приведенное выше решение помогает в обратном порядке, т.е. -доступный для поиска. Также я думаю, что они действительны в Ubuntu/Linux/MacOS.
Может кто-нибудь помочь сказать, каким должен быть код Python для достижения возможности поиска в Windows Python?
ОБНОВЛЕНИЕ 1
Я получил желаемый результат с помощью Asprise Web Ocr. Ниже приведена ссылка и код:
https://asprise.com/royalty-free-librar ... rview.html
Я ищу решение, которое можно реализовать только с помощью библиотек Windows Python
- Не нужно будет платить за подписку в будущем.
- Мне нужно конвертировать тысячи документов ежедневно, и будет сложно загрузить один в API, а затем скачать и так далее.
Я знаю решение, заключающееся в преобразовании PDF-файла, не поддерживающего поиск, непосредственно в текст. Но я ищу способ конвертировать PDF-файлы без возможности поиска в PDF-файлы с возможностью поиска. У меня есть код для преобразования PDF в текст с помощью PyPDF2.
Подробнее здесь: https://stackoverflow.com/questions/519 ... ows-python