Преобразование PDF-файла без поиска в PDF-файл с возможностью поиска в Windows Python

Преобразование PDF-файла без поиска в PDF-файл с возможностью поиска в Windows Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Преобразование PDF-файла без поиска в PDF-файл с возможностью поиска в Windows Python

Цитата

Сообщение Anonymous » 17 дек 2024, 05:56

Нужно решение для преобразования PDF-файла, где каждая страница представляет собой изображение, а страница может содержать текст, таблицу или их комбинацию, в PDF-файл с возможностью поиска.

Мне Я использовал ABBY FineReader Online, который отлично справляется со своей задачей, но я ищу решение, которое можно реализовать с помощью Windows Python

У меня есть проведен подробный анализ, и ниже приведены ссылки, которые приблизились к тому, что Я хочу, но не совсем:

Отсканированное изображение/PDF в изображение/PDF с возможностью поиска

Рекомендуется использовать Сценарий Ghost сначала преобразует его в изображение, а затем напрямую преобразует в текст. Я не верю, что tesseract преобразует PDF-файлы, не доступные для поиска, в PDF-файлы с возможностью поиска.

Преобразование PDF-файла с возможностью поиска в PDF-файл без поиска

Приведенное выше решение помогает в обратном порядке, т.е. -доступный для поиска. Также я думаю, что они действительны в Ubuntu/Linux/MacOS.

Может кто-нибудь помочь сказать, каким должен быть код Python для достижения возможности поиска в Windows Python?

ОБНОВЛЕНИЕ 1

Я получил желаемый результат с помощью Asprise Web Ocr. Ниже приведена ссылка и код:

https://asprise.com/royalty-free-librar ... rview.html
Я ищу решение, которое можно реализовать только с помощью библиотек Windows Python

Не нужно будет платить за подписку в будущем.
Мне нужно конвертировать тысячи документов ежедневно, и будет сложно загрузить один в API, а затем скачать и так далее.

ОБНОВЛЕНИЕ 2

Я знаю решение, заключающееся в преобразовании PDF-файла, не поддерживающего поиск, непосредственно в текст. Но я ищу способ конвертировать PDF-файлы без возможности поиска в PDF-файлы с возможностью поиска. У меня есть код для преобразования PDF в текст с помощью PyPDF2.

Подробнее здесь: https://stackoverflow.com/questions/519 ... ows-python

1734404160

Anonymous

Нужно решение для преобразования PDF-файла, где каждая страница представляет собой изображение, а страница может содержать текст, таблицу или их комбинацию, в PDF-файл с возможностью поиска.

Мне Я использовал ABBY FineReader Online, который отлично справляется со своей задачей, но я ищу решение, которое можно реализовать с помощью [b]Windows Python[/b]

У меня есть проведен подробный анализ, и ниже приведены ссылки, которые приблизились к тому, что Я хочу, но не совсем:

Отсканированное изображение/PDF в изображение/PDF с возможностью поиска

Рекомендуется использовать Сценарий Ghost сначала преобразует его в изображение, а затем напрямую преобразует в текст. Я не верю, что tesseract преобразует PDF-файлы, не доступные для поиска, в PDF-файлы с возможностью поиска. 

Преобразование PDF-файла с возможностью поиска в PDF-файл без поиска

Приведенное выше решение помогает в обратном порядке, т.е. -доступный для поиска. Также я думаю, что они действительны в Ubuntu/Linux/MacOS.

Может кто-нибудь помочь сказать, каким должен быть код Python для достижения возможности поиска в [b]Windows Python[/b]? 



[b]ОБНОВЛЕНИЕ 1[/b]

Я получил желаемый результат с помощью Asprise Web Ocr. Ниже приведена ссылка и код:

https://asprise.com/royalty-free-library/python-ocr-api-overview.html
[b]Я ищу решение, которое можно реализовать только с помощью библиотек Windows Python[/b]

[list]
[*]Не нужно будет платить за подписку в будущем.
[*]Мне нужно конвертировать тысячи документов ежедневно, и будет сложно загрузить один в API, а затем скачать и так далее.
[/list]

[b]ОБНОВЛЕНИЕ 2[/b]

Я знаю решение, заключающееся в преобразовании PDF-файла, не поддерживающего поиск, непосредственно в текст. Но я ищу способ конвертировать PDF-файлы без возможности поиска в PDF-файлы с возможностью поиска. У меня есть код для преобразования PDF в текст с помощью PyPDF2. 

Подробнее здесь: [url]https://stackoverflow.com/questions/51949231/convert-non-searchable-pdf-to-searchable-pdf-in-windows-python[/url]