Я пытаюсь использовать неструктурированную библиотеку для преобразования документа Word в файл JSON. Однако по какой-то причине он не видит изображений; в списке возвращаемых элементов должны быть элементы типа «Изображение». Он не выдает ошибку, он просто не возвращает элементы изображения. Ниже моего кода и моего тестового файла. Тестовый файл содержит строку, изображение и еще одну строку. Но изображение при этом не обнаруживается. Что я делаю не так?
from unstructured.partition.docx import partition_docx
elements = partition_docx(filename="input/test.docx")
with open("input/test.docx", "rb") as f:
elements = partition_docx(file=f)
elements = [element.to_dict() for element in elements]
# save as json
with open("output/test.json", "w") as f:
json.dump(elements, f, indent=2)
Я пытаюсь использовать неструктурированную библиотеку для преобразования документа Word в файл JSON. Однако по какой-то причине он не видит изображений; в списке возвращаемых элементов должны быть элементы типа «Изображение». Он не выдает ошибку, он просто не возвращает элементы изображения. Ниже моего кода и моего тестового файла. Тестовый файл содержит строку, изображение и еще одну строку. Но изображение при этом не обнаруживается. Что я делаю не так? [code]from unstructured.partition.docx import partition_docx
elements = partition_docx(filename="input/test.docx")
with open("input/test.docx", "rb") as f: elements = partition_docx(file=f) elements = [element.to_dict() for element in elements] # save as json with open("output/test.json", "w") as f: json.dump(elements, f, indent=2) [/code] Структура моего проекта: [code]├── root │ └── input │ └── output [/code] Вот файл: test.docx