Как обнаружить ориентацию изображения внутри PDF? - Цифровое Кемерово

Как обнаружить ориентацию изображения внутри PDF? ⇐ Php

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как обнаружить ориентацию изображения внутри PDF?

Цитата

Сообщение Anonymous » 14 июн 2025, 10:39

Я новичок в использовании PDFPARSER для извлечения текста из одностраничных PDF-файлов, которые незашифрованы. Пример здесь. (Я вернусь к этому файлу через минуту.) Простой сканер страницы используется для создания этих PDF -файлов, и, как таковой, «текст» на странице - это изображение, а не работоспособный текст. Я ожидал этого. < /P>
Я хотел бы написать сценарий PHP для достижения этого, и я планирую использовать PDFPARSER, так как это единственный процессор библиотеки PDF, который я мог бы найти для PHP, который читает содержание PDF. (Исправления к этому приветствуются.) В целом, идея заключается в: < /p>

Открытый файл и создать класс < /li>
Извлеките одно изображение < /li>
Clate to Tesseract, чтобы преобразовать изображение в текст < /li>
< /ol>
, но и для некоторых файлов, но для некоторого (Br /> < /ol>
. Приведен пример) Изображение фактически хранится вверх ногами. (Если у вас нет инструментов, чтобы увидеть это, этот файл является извлеченным, нетронутым изображением.) < /P>
Очевидно, что инструменты, которые в конечном итоге отображают это изображение пользователю, могут понять и исправить для ориентации, но я не смог найти какие -либо свойства, используя PDFPARSER, который позволит мне обнаружить это. Я нашел ширину и высоту страницы, и эти значения кажутся похожими (из-за отсутствия лучшего термина) «правого шага» и «перевернутых» изображений. Если бы я мог обнаружить вертикальную ориентацию, я мог бы перевернуть это изображение в памяти по мере необходимости, и Tesseract может обработать его. (В качестве доказательства концепции этот код теперь делает это, но безоговорочно.) Я не очень обеспокоен производительностью-это будет сделано только со скоростью, максимум, два или три в неделю. < /P>
Мой самый базовый код, который работает с этим файлом (только потому, что я заставил его), следует. Если вы запустите это с помощью rotate_image, определяемого как false, вы увидите, что происходит без вращения. Это красиво, но не полезно. < /P>

Код: Выделить всё

#!/usr/bin/env php


Подробнее здесь: [url]https://stackoverflow.com/questions/79664156/how-to-detect-orientation-of-an-image-inside-pdf[/url]

1749886799

Anonymous

 Я новичок в использовании PDFPARSER для извлечения текста из одностраничных PDF-файлов, которые незашифрованы.  Пример здесь. (Я вернусь к этому файлу через минуту.) Простой сканер страницы используется для создания этих PDF -файлов, и, как таковой, «текст» на странице - это изображение, а не работоспособный текст.  Я ожидал этого. < /P>
Я хотел бы написать сценарий PHP для достижения этого, и я планирую использовать PDFPARSER, так как это единственный процессор библиотеки PDF, который я мог бы найти для PHP, который читает содержание PDF.  (Исправления к этому приветствуются.) В целом, идея заключается в: < /p>

 Открытый файл и создать класс < /li>
 Извлеките одно изображение < /li>
 Clate to Tesseract, чтобы преобразовать изображение в текст < /li>
< /ol>
, но и для некоторых файлов, но для некоторого (Br /> < /ol>
. Приведен пример) Изображение фактически хранится вверх ногами.  (Если у вас нет инструментов, чтобы увидеть это, этот файл является извлеченным, нетронутым изображением.) < /P>
Очевидно, что инструменты, которые в конечном итоге отображают это изображение пользователю, могут понять и исправить для ориентации, но я не смог найти какие -либо свойства, используя PDFPARSER, который позволит мне обнаружить это.  Я нашел ширину и высоту страницы, и эти значения кажутся похожими (из-за отсутствия лучшего термина) «правого шага» и «перевернутых» изображений.  Если бы я мог обнаружить вертикальную ориентацию, я мог бы перевернуть это изображение в памяти по мере необходимости, и Tesseract может обработать его.  (В качестве доказательства концепции этот код теперь делает это, но безоговорочно.) Я не очень обеспокоен производительностью-это будет сделано только со скоростью, максимум, два или три в неделю. < /P>
Мой самый базовый код, который работает с этим файлом (только потому, что я заставил его), следует.  Если вы запустите это с помощью rotate_image, определяемого как false, вы увидите, что происходит без вращения.  Это красиво, но не полезно. < /P>
[code]#!/usr/bin/env php


Подробнее здесь: [url]https://stackoverflow.com/questions/79664156/how-to-detect-orientation-of-an-image-inside-pdf[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Php»