Я хотел бы написать сценарий PHP для достижения этого, и я планирую использовать PDFPARSER, так как это единственный процессор библиотеки PDF, который я мог бы найти для PHP, который читает содержание PDF. (Исправления к этому приветствуются.) В целом, идея заключается в: < /p>
Открытый файл и создать класс < /li>
Извлеките одно изображение < /li>
Clate to Tesseract, чтобы преобразовать изображение в текст < /li>
< /ol>
, но и для некоторых файлов, но для некоторого (Br /> < /ol>
. Приведен пример) Изображение фактически хранится вверх ногами. (Если у вас нет инструментов, чтобы увидеть это, этот файл является извлеченным, нетронутым изображением.) < /P>
Очевидно, что инструменты, которые в конечном итоге отображают это изображение пользователю, могут понять и исправить для ориентации, но я не смог найти какие -либо свойства, используя PDFPARSER, который позволит мне обнаружить это. Я нашел ширину и высоту страницы, и эти значения кажутся похожими (из-за отсутствия лучшего термина) «правого шага» и «перевернутых» изображений. Если бы я мог обнаружить вертикальную ориентацию, я мог бы перевернуть это изображение в памяти по мере необходимости, и Tesseract может обработать его. (В качестве доказательства концепции этот код теперь делает это, но безоговорочно.) Я не очень обеспокоен производительностью-это будет сделано только со скоростью, максимум, два или три в неделю. < /P>
Мой самый базовый код, который работает с этим файлом (только потому, что я заставил его), следует. Если вы запустите это с помощью rotate_image, определяемого как false, вы увидите, что происходит без вращения. Это красиво, но не полезно. < /P>
Код: Выделить всё
#!/usr/bin/env php
Подробнее здесь: [url]https://stackoverflow.com/questions/79664156/how-to-detect-orientation-of-an-image-inside-pdf[/url]
Мобильная версия