Как исправить кодировку: ошибка анализа текста Identity-H для вьетнамского официального вестника IP PDF pdf с Python? - Цифровое Кемерово

Как исправить кодировку: ошибка анализа текста Identity-H для вьетнамского официального вестника IP PDF pdf с Python? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как исправить кодировку: ошибка анализа текста Identity-H для вьетнамского официального вестника IP PDF pdf с Python?

Цитата

Сообщение Anonymous » 17 ноя 2024, 02:24

Я хочу преобразовать PDF-файл в текст. Но когда я использую pypdf2 или pymupdf для извлечения текста из этого PDF-файла, у меня возникает проблема: он возвращает специальные символы при обнаружении слов с акцентом на вьетнамском языке. Английские слова или слова без знака не имеют значения.

Код: Выделить всё

#pdf path
pdf_file ='CB410A3 - Copy.pdf'
pdf = fitz.open(pdf_file)
#Read page 8
a8= pdf[8]
text = a8.getText("text")
text(Pymupdf code)

Или

Код: Выделить всё

# pdf path
pdf_file =r'D:data\VN\CB410A3.pdf'
#import the PyPDF2 module
import PyPDF2

#open the PDF file
PDFfile = open(pdf_file, 'rb')

PDFfilereader = PyPDF2.PdfFileReader(PDFfile)

#provide the page number
pages = PDFfilereader.getPage(8)
x=pages.extractText()

Он вернет следующий результат: ' \nc«ng b¸o së h÷u c«ng nghiÖp sè 410 tËp a - QuyÓn 3 (05.2022) \n \n \n9 \ngia cÇm ; ®å ¨n s¸ng trªn c¬së c¸; ®å ¨n s¸ng trªn cë h¶i s¶n; ®å ¨n s¸ng trªn cë së thÞt; \n®å ¨n s¸ng'. Но я хочу, чтобы он вернулся вот так

Я пытаюсь декодировать результаты с помощью utf-8, но это не сработало.
Может ли кто-нибудь помочь мне решить эту проблему? Спасибо.
Обновленная информация:
Начиная с января 2023 г. PDF-файлы Официального вестника промышленной собственности, публикуемые ipvietnam, больше не будут иметь проблем с кодировкой, которые могут вызвать ошибки при разборе.

Подробнее здесь: https://stackoverflow.com/questions/729 ... fficial-ga

1731799478

Anonymous

Я хочу преобразовать PDF-файл в текст. Но когда я использую pypdf2 или pymupdf для извлечения текста из этого PDF-файла, у меня возникает проблема: он возвращает специальные символы при обнаружении слов с акцентом на вьетнамском языке. Английские слова или слова без знака не имеют значения.
[code]#pdf path
pdf_file ='CB410A3 - Copy.pdf'
pdf = fitz.open(pdf_file)
#Read page 8
a8= pdf[8]
text = a8.getText("text")
text(Pymupdf code)
[/code]
Или
[code]# pdf path
pdf_file =r'D:data\VN\CB410A3.pdf'
#import the PyPDF2 module
import PyPDF2

#open the PDF file
PDFfile = open(pdf_file, 'rb')

PDFfilereader = PyPDF2.PdfFileReader(PDFfile)

#provide the page number
pages = PDFfilereader.getPage(8)
x=pages.extractText()
[/code]
Он вернет следующий результат: ' \nc«ng b¸o së h÷u c«ng nghiÖp sè 410 tËp a - QuyÓn 3 (05.2022) \n \n \n9 \ngia cÇm ; ®å ¨n s¸ng trªn c¬së c¸; ®å ¨n s¸ng trªn cë h¶i s¶n; ®å ¨n s¸ng trªn cë së thÞt; \n®å ¨n s¸ng'. Но я хочу, чтобы он вернулся вот так
[img]https://i.sstatic.net/OmdTj.png[/img]
Я пытаюсь декодировать результаты с помощью utf-8, но это не сработало.
Может ли кто-нибудь помочь мне решить эту проблему? Спасибо.
Обновленная информация:
Начиная с января 2023 г. PDF-файлы Официального вестника промышленной собственности, публикуемые ipvietnam, больше не будут иметь проблем с кодировкой, которые могут вызвать ошибки при разборе. 

Подробнее здесь: [url]https://stackoverflow.com/questions/72952664/how-to-fix-encoding-identity-h-error-parsing-text-for-vietnamese-ip-official-ga[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»