Чтение PDF, странная кодировка оператора TJPhp

Кемеровские программисты php общаются здесь
Ответить
Anonymous
 Чтение PDF, странная кодировка оператора TJ

Сообщение Anonymous »

Сейчас я пытаюсь извлечь текст из PDF-документа, но столкнулся с некоторыми странными случаями с оператором Tj. Обычно я имел дело с такими случаями:

Код: Выделить всё

   Tc (SOME_TEXT) TJ
Теперь я столкнулся с таким случаем:

Код: Выделить всё

   Tm  [
( )1.828
(5)1.841
(2)1.828
(2)1.828
(4)1.841
(9)1.828
(.)1.828
(6)1.841
(4)
]
TJ
Который преобразуется в строку «52249.64». Теперь я столкнулся с еще одним странным случаем:

Единственная информация, которую я смог найти, такова: строка, передаваемая в Tj, всегда должна интерпретироваться в соответствии с кодировкой или CMap для шрифта. (В данном случае я ожидаю, что это CIDFont с CMap)

Код: Выделить всё

Td  (
\t\004\007\020\007\016\016\026\020
)
Tj
Я до сих пор не понимаю. Это какие-то индексы, указывающие смещение в каком-то массиве символов, или мне нужно декодировать эти значения? Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/334 ... e-encoding
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Php»