Иностранные символы разрезают слова с помощью Smalot PdfParser getText()Php

Кемеровские программисты php общаются здесь
Ответить Пред. темаСлед. тема
Anonymous
 Иностранные символы разрезают слова с помощью Smalot PdfParser getText()

Сообщение Anonymous »

Я пытаюсь извлечь текст из PDF-файла с помощью Smalot PdfParser.

Код: Выделить всё

$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile(myfile);
$text = $pdf->getText();
Он работает нормально, за исключением того, что иностранные символы (например, æ ø å ü ẞ) сокращают слова. Слово типа «Banegård» даст слова «Baneg» и «rd», а символ å исчезнет.
Это из очень простых PDF-файлов, написанных с настройками LibreOffice Writer по умолчанию. Так что ничего особенного.
Я немного удивлен, что Google ничего мне не дает. Конечно, здесь, в 2024 году, это довольно просто? Что мне не хватает?

Подробнее здесь: https://stackoverflow.com/questions/790 ... er-gettext
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Php»