Poppler, Tesseract. Общая рекомендация для Windows — загрузить эти файлы отдельно от установки pip, а затем указать путь к ним. Это решение мне не подходит, так как они занимают слишком много места в папке моего проекта.
Сейчас в папке моего проекта есть две папки: Poppler и Tesseract, которые содержат всю необходимую информацию. Я установил их так:
Код: Выделить всё
pytesseract.tesseract_cmd = path_to_tesseract
#and
convert_from_path(file_path, poppler_path = POPPLER_PATH)
Прямо сейчас у меня есть сценарий PowerShell, который pip устанавливает все, что мне нужно. Я смогу загрузить Tesseract и Poppler одновременно с остальными установками pip.
Код: Выделить всё
$libraries = @(
"pdf2image", # turnIntoImage()
"pytesseract"
)
foreach ($lib in $libraries) {
Write-Host "Installing $lib..."
pip install $lib
}
# Add code here which downloads Poppler and Tesseract
- Самая загрузка файлов (не программная)
- Загрузка файлов при доступе к файлу Python (должен быть в PS1)
- Запуск файла tesseract.exe в PS1. (не очень хорошая практика, занимает вечность)
- Используйте ps1 для загрузки файлов прямо на диск C: (нет доступа, много ошибок, не помогло)
Подробнее здесь: https://stackoverflow.com/questions/798 ... powershell
Мобильная версия