Мультимодальный RAG: Чат с видео
В курсе используется Bridgetower-large-itm-mlm-itc с использованием PredictionGuard. Когда я хочу попробовать это на локальном ноутбуке, следуя всем примерам курса, я сейчас работаю над главой L4_Мультимодальный поиск из векторных хранилищ. У меня возникли проблемы с Bridgetower-large-itm-mlm-itc при использовании предсказывающей защиты, для которой у меня нет ключа API. Поэтому я поискал информацию о HuggingFace и нашел BridgeTower/bridgetower-large-itm-mlm-itc. Но следующая проблема, с которой я столкнулся, — как мне создать функцию для решения этой проблемы?
Код: Выделить всё
# helper function to compute the joint embedding of a prompt and a base64-encoded image through PredictionGuard
def bt_embedding_from_prediction_guard(prompt, base64_image):
# get PredictionGuard client
client = _getPredictionGuardClient()
message = {"text": prompt,}
if base64_image is not None and base64_image != "":
if not isBase64(base64_image):
raise TypeError("image input must be in base64 encoding!")
message['image'] = base64_image
response = client.embeddings.create(
model="bridgetower-large-itm-mlm-itc",
input=[message]
)
return response['data'][0]['embedding']
Я провел исследование и обнаружил, что мне следует использовать функцию BridgeTowerForImageAndTextRetrieval
код>. Но я не уверен, как изменить код, чтобы он работал. Есть ли кто-нибудь, обладающий опытом в этой области, который может помочь?
Подробнее здесь: https://stackoverflow.com/questions/792 ... cal-laptop
Мобильная версия