Я работаю над проектом Python, который подключается к API OpenAI (для аудио- и видеофайлов) и API-интерфейсу ollama (для документов, поскольку они богаты числами и должны быть автономными), чтобы изучить содержимое этих файлов и сохранить их внедрения в базе данных в качестве векторов для дальнейшей задачи поиска (включая косинусное сходство) для генерации ответов на основе запросов пользователя.
У меня есть вопрос: Как вы думаете, какой вариант базы данных NoSQL является лучшим, который работает быстро, поддерживает огромное количество больших файлов, соответствует библиотекам Python, а также принадлежит большому сообществу и широко используется?
Я пробовал MongoDB и Postgres, но не удовлетворен результатами. С другой стороны, AI предлагает Milvus или Qdrant. Однако мне нужно знать, какая база данных практически используется для такого проекта другими разработчиками?
Кроме того, я использую «sentence-transformers/LaBSE» для создания вложений как для онлайн, так и для офлайн-моделей. Это правильный выбор или есть варианты получше?
Заранее спасибо, ребята.
Подробнее здесь: https://stackoverflow.com/questions/797 ... -in-python