Иностранные символы разрезают слова с помощью Smalot PdfParser getText()

Иностранные символы разрезают слова с помощью Smalot PdfParser getText() ⇐ Php

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Иностранные символы разрезают слова с помощью Smalot PdfParser getText()

Цитата

Сообщение Anonymous » 16 окт 2024, 12:04

Я пытаюсь извлечь текст из PDF-файла с помощью Smalot PdfParser.

Код: Выделить всё

$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile(myfile);
$text = $pdf->getText();

Он работает нормально, за исключением того, что иностранные символы (например, æ ø å ü ẞ) сокращают слова. Слово типа «Banegård» даст слова «Baneg» и «rd», а символ å исчезнет.
Это из очень простых PDF-файлов, написанных с настройками LibreOffice Writer по умолчанию. Так что ничего особенного.
Я немного удивлен, что Google ничего мне не дает. Конечно, здесь, в 2024 году, это довольно просто? Что мне не хватает?

Подробнее здесь: https://stackoverflow.com/questions/790 ... er-gettext

1729069452

Anonymous

Я пытаюсь извлечь текст из PDF-файла с помощью Smalot PdfParser.
[code]$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile(myfile);
$text = $pdf->getText();
[/code]
Он работает нормально, за исключением того, что иностранные символы (например, æ ø å ü ẞ) сокращают слова. Слово типа «Banegård» даст слова «Baneg» и «rd», а символ å исчезнет.
Это из очень простых PDF-файлов, написанных с настройками LibreOffice Writer по умолчанию. Так что ничего особенного.
Я немного удивлен, что Google ничего мне не дает. Конечно, здесь, в 2024 году, это довольно просто? Что мне не хватает? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79093297/foreign-characters-cuts-up-words-with-smalot-pdfparser-gettext[/url]