из langchain_community.document_loaders импортировать DirectoryLoader
из langchain_text_splitters импортировать CharacterTextSplitter
из langchain_huggingface импортировать HuggingFaceEmbeddings
из langchain_chroma импортировать Chroma
Код: Выделить всё
embeddings = HuggingFaceEmbeddings()
loader = DirectoryLoader(path="data",
glob="./*.pdf",
loader_cls=UnstructuredFileLoader)
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=2000,
chunk_overlap=500)
text_chunks = text_splitter.split_documents(documents)
vectordb = Chroma.from_documents(
documents=text_chunks,
embedding=embeddings,
persist_directory="vector_db_dir"
print("Векторизация документов")
ОШИБКА< /p>
C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\transformers\tokenization_utils_base.py
warnings.warn(
Ошибка загрузки данных файла\UPL Leave Policy.pdf
Traceback ( последний вызов последний):
Файл «C:\Users\ADMIN\PycharmProjects\chtbt\vectorize_documents.py», строка 13, в
documents = loader.load()
^^^ ^^^^^^^^^^
Файл "C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\langchain_community\document_loaders\directory.py", строка 117, в загрузкесписок возврата(self.lazy_load())
^^^^^^^^^^^^^^^^^^^^^^
Файл "C:\Users\ADMIN \PycharmProjects\chtbt.venv\Lib\site-packages\langchain_community\document_loaders\directory.py", строка 195, в lazy_load
yield from self._lazy_load_file(i, p, pbar)
Файл "C" :\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\langchain_community\document_loaders\directory.py", строка 233, в _lazy_load_file
поднимите e
Файл "C:\Users\ADMIN" \PycharmProjects\chtbt.venv\Lib\site-packages\langchain_community\document_loaders\directory.py", строка 223, в _lazy_load_file
для поддокумента в loader.lazy_load():
Файл "C:\Users" \ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\langchain_community\document_loaders\unstructured.py", строка 107, в lazy_load
elements = self._get_elements()
^^^^^^ ^^^^^^^^^^^^^^
Файл "C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\langchain_community\document_loaders\unstructured.py", строка 228 , в _get_elements
return раздел(filename=self.file_path, **self.unstructured_kwargs)
^^^^^^^^^^^^^^^^^^^^^^^^ ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
Файл "C:\Users\ADMIN \PycharmProjects\chtbt.venv\Lib\site-packages\unstructured\partition\auto.py", строка 186, в разделе
file_type =Detect_filetype(
^^^^^^^^^^^ ^^^^^
Файл "C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\unstructured\file_utils\filetype.py", строка 102, в define_filetype
return _FileTypeDetector .file_type(ctx)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
Файл "C:\ Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\unstructured\file_utils\filetype.py", строка 135, в file_type
return cls(ctx)._file_type
^^^^^ ^^^^^^^^^^^^^^
Файл "C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\unstructured\file_utils\filetype.py", строка 145 , в _file_type
if file_type := self._file_type_from_guessed_mime_type:
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ ^^^^^^^
Файл "C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\unstructured\file_utils\filetype.py", строка 185, в _file_type_from_guessed_mime_type
mime_type = self._ctx.mime_type
^^^^^^^^^^^^^^^^^^
Файл "C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib \site-packages\unstructured\utils.py", строка 155, в get
value = self.fget(obj)
^^^^^^^ ^^^^^^^^
Файл "C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\unstructured\file_utils\filetype.py", строка 369, в mime_type
magic.from_file(file_path, mime=True)
Файл "C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\magic_init. py", строка 178, в from_file
m = get_magic_type(mime)
^^^^^^^^^^^^^^^^^^^^
Файл «C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\magic_init.py», строка 165, в get_magic_type
i = instances[mime] = Magic(mime=mime)
^^^^^^^^^^^^^^^^
Файл "C:\Users\ADMIN\PycharmProjects \chtbt.venv\Lib\site-packages\magic_init.py", строка 73, в init
magic_load(self.cookie, Magic_file)
Файл «C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\magic_init.py», строка 332, в Magic_loadreturn magic_load(cookie, coerce_filename(filename))
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ ^^^^^^^^^^^^^^^^
Файл "C:\Users\ADMIN\PycharmProjects\chtbt.venv\Lib\site-packages\magic_init .py", строка 225, в errorcheck_negative_one
raise MagicException(err)
magic.MagicException: None
Я скопировал файлы .dll в sys 32.
Также установлены библиотеки графического интерфейса Pycharm..
Подробнее здесь: https://stackoverflow.com/questions/790 ... r-on-magic