Я пытаюсь использовать неструктурированную библиотеку для преобразования документа Word в файл JSON. Однако по какой-то причине он не видит изображений; в списке возвращаемых элементов должны быть элементы типа «Изображение». Он не выдает ошибку, он просто не возвращает элементы изображения. Ниже моего кода и моего тестового файла. Тестовый файл содержит строку, изображение и еще одну строку. Но изображение при этом не обнаруживается. Что я делаю не так?
from unstructured.partition.docx import partition_docx
import os
# Set environment variables
os.environ['UNSTRUCTURED_API_KEY'] = "your unstructured.io api key"
os.environ['UNSTRUCTURED_API_URL'] = "https://api.unstructuredapp.io/general/v0/general"
elements = partition_docx(filename="input/test.docx")
with open("input/test.docx", "rb") as f:
elements = partition_docx(file=f)
elements = [element.to_dict() for element in elements]
# save as json
with open("output/test.json", "w") as f_json:
json.dump(elements, f_json, indent=2)
Я пытаюсь использовать неструктурированную библиотеку для преобразования документа Word в файл JSON. Однако по какой-то причине он не видит изображений; в списке возвращаемых элементов должны быть элементы типа «Изображение». Он не выдает ошибку, он просто не возвращает элементы изображения. Ниже моего кода и моего тестового файла. Тестовый файл содержит строку, изображение и еще одну строку. Но изображение при этом не обнаруживается. Что я делаю не так? [code]from unstructured.partition.docx import partition_docx import os # Set environment variables os.environ['UNSTRUCTURED_API_KEY'] = "your unstructured.io api key" os.environ['UNSTRUCTURED_API_URL'] = "https://api.unstructuredapp.io/general/v0/general"
elements = partition_docx(filename="input/test.docx")
with open("input/test.docx", "rb") as f: elements = partition_docx(file=f) elements = [element.to_dict() for element in elements] # save as json with open("output/test.json", "w") as f_json: json.dump(elements, f_json, indent=2) [/code] Структура моего проекта: [code]├── root │ └── input │ └── output [/code] Вот файл: test.docx