Код: Выделить всё
#pdf path
pdf_file ='CB410A3 - Copy.pdf'
pdf = fitz.open(pdf_file)
#Read page 8
a8= pdf[8]
text = a8.getText("text")
text(Pymupdf code)
Код: Выделить всё
# pdf path
pdf_file =r'D:data\VN\CB410A3.pdf'
#import the PyPDF2 module
import PyPDF2
#open the PDF file
PDFfile = open(pdf_file, 'rb')
PDFfilereader = PyPDF2.PdfFileReader(PDFfile)
#provide the page number
pages = PDFfilereader.getPage(8)
x=pages.extractText()

Я пытаюсь декодировать результаты с помощью utf-8, но это не сработало.
Может ли кто-нибудь помочь мне решить эту проблему? Спасибо.
Обновленная информация:
Начиная с января 2023 г. PDF-файлы Официального вестника промышленной собственности, публикуемые ipvietnam, больше не будут иметь проблем с кодировкой, которые могут вызвать ошибки при разборе.
Подробнее здесь: https://stackoverflow.com/questions/729 ... fficial-ga
Мобильная версия