Как устранить ошибку отображения Юникода в PDFBox

Как устранить ошибку отображения Юникода в PDFBox ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Как устранить ошибку отображения Юникода в PDFBox

Цитата

Сообщение Anonymous » 09 окт 2024, 17:18

У меня есть PDF-файл, сжатый Adobe, и я использовал PDFTextStripper из pdfbox, чтобы извлечь текстовое содержимое PDF как пустое, однако имеется несколько ошибок, подобных следующим:

Код: Выделить всё

org.apache.pdfbox.pdmodel.font.PDType0Font [422] |  | No Unicode mapping for CID+63 (63) in font BFLONM+SimSun,Bold-GBK-EUC-H

Как мы можем решить проблему с кодированием?
Я попробовал использовать чатгпт для анализа, как показано на рисунке:

Встроенный шрифт PDF с [FAAAAH+SimSun, Bold ] можно разобрать, а [BFLONM+SimSun, Bold-GBK-EUC-H] разобрать нельзя. Подозреваю, что это может быть связано с кодировкой GBK

Подробнее здесь: https://stackoverflow.com/questions/790 ... rom-pdfbox

1728483497

Anonymous

У меня есть PDF-файл, сжатый Adobe, и я использовал PDFTextStripper из pdfbox, чтобы извлечь текстовое содержимое PDF как пустое, однако имеется несколько ошибок, подобных следующим:
[code]org.apache.pdfbox.pdmodel.font.PDType0Font [422] |  | No Unicode mapping for CID+63 (63) in font BFLONM+SimSun,Bold-GBK-EUC-H[/code]
[img]https://i.sstatic.net/CU8j7t0r.png[/img]

Как мы можем решить проблему с кодированием?
Я попробовал использовать чатгпт для анализа, как показано на рисунке:
[img]https://i.sstatic.net/BHAjXezu.png[/img]

Встроенный шрифт PDF с [FAAAAH+SimSun, Bold ] можно разобрать, а [BFLONM+SimSun, Bold-GBK-EUC-H] разобрать нельзя. Подозреваю, что это может быть связано с кодировкой GBK 

Подробнее здесь: [url]https://stackoverflow.com/questions/79070549/how-to-solve-no-unicode-mapping-error-from-pdfbox[/url]