Страницы могут открывать кириллические .docx, а docx2txt, docx2python, mammoth и pypandoc — нет. Как мне это прочитать?Python

Программы на Python
Ответить
Anonymous
 Страницы могут открывать кириллические .docx, а docx2txt, docx2python, mammoth и pypandoc — нет. Как мне это прочитать?

Сообщение Anonymous »

Я пытаюсь открыть файлы .docx с кириллическим текстом внутри. Я работаю над Mac m1, я очистил эти файлы. Страницы могут читать их правильно. Но когда я пытаюсь открыть и прочитать их с помощью библиотек Python, у меня возникает почти такая же ошибка.

Код: Выделить всё

import docx2txt

text = docx2txt.process("test1.docx")
print(text)
zipfile.BadZipFile: файл не является ZIP-файлом

Код: Выделить всё

import pypandoc

text = pypandoc.convert_file('your_file.docx', 'plain')
print(text)
Ошибка выполнения: Pandoc умер с кодом выхода «63» во время преобразования:
не удалось распаковать контейнер docx: не найден конец центрального каталога
подпись

Код: Выделить всё

import docx

def read_cyrillic_docx(file_path):
doc = docx.Document(file_path)
full_text = [para.text for para in doc.paragraphs]
return '\n'.join(full_text)

text = read_cyrillic_docx('test1.docx')
print(text)
docx.opc.Exceptions.PackageNotFoundError: Пакет не найден в
'test1.docx'

Как открыть эти файлы с помощью Python? Заранее спасибо!

Подробнее здесь: https://stackoverflow.com/questions/798 ... pypandoc-c
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»