Я хочу понять, почему изображение и текст имеют высокий показатель косинусного сходства, поэтому я планирую использовать SHAP, чтобы понять важность каждого признака в тексте и изображении. Я не нашел ни одного материала, реализующего SHAP для CLIP, кто-нибудь знает, как это сделать?
Я не нашел никаких ресурсов, я пытался адаптировать любой код, который имеет дело с текстом.
Подробнее здесь: https://stackoverflow.com/questions/791 ... clip-model
Мобильная версия