Методы уменьшения встраивания тензора до координат x, y, zPython

Программы на Python
Ответить
Anonymous
 Методы уменьшения встраивания тензора до координат x, y, z

Сообщение Anonymous »

У меня есть модель обнимающегося лица, и я хотел бы использовать ее для сравнения слов. Сначала я думал выполнить серию вычислений сходства между интересующими словами, но быстро обнаружил, что эта проблема будет экспоненциально возрастать по мере увеличения количества слов.
Решение, о котором я подумал. строит грамму пропуска, где все слова располагаются на двухмерной плоскости, а затем можно просто выполнить кластеризацию по координатам, чтобы найти похожие слова. Проблема здесь в том, что для этого требуется модель bert и нижний слой внедрения, который можно отобразить.
Поскольку у меня есть предварительно обученная модель, я не знаю, смогу ли я создать грамму пропуска. с от этого. Я надеялся вычислить вложение и с помощью преобразования преобразовать вложение в координаты, которые я смогу построить самостоятельно. Хотя я не знаю, возможно ли это или разумно.
Я пытался сделать это с помощью кода ниже
from sklearn.manifold import TSNE
from transformers import AutoModel, AutoTokenizer

# target word
word = ["Slartibartfast"]

# model setup
model = 'Alibaba-NLP/gte-multilingual-base'
tokenizer = AutoTokenizer.from_pretrained(model)
auto_model = AutoModel.from_pretrained(model, trust_remote_code=True)

# embbed and calculate
batch_dict = self.tokenizer(text_list, max_length=8192, padding=True, truncation=True, return_tensors='pt')
result = auto_model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0][:768]

# transform to coordinates
clayer = TSNE(n_components=3, learning_rate='auto', init='random', perplexity=50)
embedding_numpy = embeddings.detach().numpy()
clayer.fit_transform(embedding_numpy) # crashes here saying perplexity must be less than n_samples


Подробнее здесь: https://stackoverflow.com/questions/792 ... oordinates
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»