Как исправить кодировку: ошибка анализа текста Identity-H для вьетнамского официального вестника IP PDF pdf с Python?Python

Программы на Python
Ответить
Anonymous
 Как исправить кодировку: ошибка анализа текста Identity-H для вьетнамского официального вестника IP PDF pdf с Python?

Сообщение Anonymous »

Я хочу преобразовать PDF-файл в текст. Но когда я использую pypdf2 или pymupdf для извлечения текста из этого PDF-файла, у меня возникает проблема: он возвращает специальные символы при обнаружении слов с акцентом на вьетнамском языке. Английские слова или слова без знака не имеют значения.

Код: Выделить всё

#pdf path
pdf_file ='CB410A3 - Copy.pdf'
pdf = fitz.open(pdf_file)
#Read page 8
a8= pdf[8]
text = a8.getText("text")
text(Pymupdf code)
Или

Код: Выделить всё

# pdf path
pdf_file =r'D:data\VN\CB410A3.pdf'
#import the PyPDF2 module
import PyPDF2

#open the PDF file
PDFfile = open(pdf_file, 'rb')

PDFfilereader = PyPDF2.PdfFileReader(PDFfile)

#provide the page number
pages = PDFfilereader.getPage(8)
x=pages.extractText()
Он вернет следующий результат: ' \nc«ng b¸o së h÷u c«ng nghiÖp sè 410 tËp a - QuyÓn 3 (05.2022) \n \n \n9 \ngia cÇm ; ®å ¨n s¸ng trªn c¬së c¸; ®å ¨n s¸ng trªn cë h¶i s¶n; ®å ¨n s¸ng trªn cë së thÞt; \n®å ¨n s¸ng'. Но я хочу, чтобы он вернулся вот так
Изображение
Я пытаюсь декодировать результаты с помощью utf-8, но это не сработало.
Может ли кто-нибудь помочь мне решить эту проблему? Спасибо.
Обновленная информация:
Начиная с января 2023 г. PDF-файлы Официального вестника промышленной собственности, публикуемые ipvietnam, больше не будут иметь проблем с кодировкой, которые могут вызвать ошибки при разборе.

Подробнее здесь: https://stackoverflow.com/questions/729 ... fficial-ga
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»