Методы уменьшения встраивания тензора до координат x, y, z

Методы уменьшения встраивания тензора до координат x, y, z ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Методы уменьшения встраивания тензора до координат x, y, z

Цитата

Сообщение Anonymous » 22 ноя 2024, 07:59

У меня есть модель обнимающегося лица, и я хотел бы использовать ее для сравнения слов. Сначала я думал выполнить серию вычислений сходства между интересующими словами, но быстро обнаружил, что эта проблема будет экспоненциально возрастать по мере увеличения количества слов.
Решение, о котором я подумал. строит грамму пропуска, где все слова располагаются на двухмерной плоскости, а затем можно просто выполнить кластеризацию по координатам, чтобы найти похожие слова. Проблема здесь в том, что для этого требуется модель bert и нижний слой внедрения, который можно отобразить.
Поскольку у меня есть предварительно обученная модель, я не знаю, смогу ли я создать грамму пропуска. с от этого. Я надеялся вычислить вложение и с помощью преобразования преобразовать вложение в координаты, которые я смогу построить самостоятельно. Хотя я не знаю, возможно ли это или разумно.
Я пытался сделать это с помощью кода ниже
from sklearn.manifold import TSNE
from transformers import AutoModel, AutoTokenizer

# target word
word = ["Slartibartfast"]

# model setup
model = 'Alibaba-NLP/gte-multilingual-base'
tokenizer = AutoTokenizer.from_pretrained(model)
auto_model = AutoModel.from_pretrained(model, trust_remote_code=True)

# embbed and calculate
batch_dict = self.tokenizer(text_list, max_length=8192, padding=True, truncation=True, return_tensors='pt')
result = auto_model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0][:768]

# transform to coordinates
clayer = TSNE(n_components=3, learning_rate='auto', init='random', perplexity=50)
embedding_numpy = embeddings.detach().numpy()
clayer.fit_transform(embedding_numpy) # crashes here saying perplexity must be less than n_samples

Подробнее здесь: https://stackoverflow.com/questions/792 ... oordinates

1732251545

Anonymous

У меня есть модель обнимающегося лица, и я хотел бы использовать ее для сравнения слов. Сначала я думал выполнить серию вычислений сходства между интересующими словами, но быстро обнаружил, что эта проблема будет экспоненциально возрастать по мере увеличения количества слов.
Решение, о котором я подумал. строит грамму пропуска, где все слова располагаются на двухмерной плоскости, а затем можно просто выполнить кластеризацию по координатам, чтобы найти похожие слова. Проблема здесь в том, что для этого требуется модель bert и нижний слой внедрения, который можно отобразить.
Поскольку у меня есть предварительно обученная модель, я не знаю, смогу ли я создать грамму пропуска. с от этого. Я надеялся вычислить вложение и с помощью преобразования преобразовать вложение в координаты, которые я смогу построить самостоятельно. Хотя я не знаю, возможно ли это или разумно.
Я пытался сделать это с помощью кода ниже
from sklearn.manifold import TSNE
from transformers import AutoModel, AutoTokenizer

# target word
word = ["Slartibartfast"]

# model setup
model = 'Alibaba-NLP/gte-multilingual-base'
tokenizer = AutoTokenizer.from_pretrained(model)
auto_model = AutoModel.from_pretrained(model, trust_remote_code=True)

# embbed and calculate
batch_dict = self.tokenizer(text_list, max_length=8192, padding=True, truncation=True, return_tensors='pt')
result = auto_model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0][:768]

# transform to coordinates
clayer = TSNE(n_components=3, learning_rate='auto', init='random', perplexity=50)
embedding_numpy = embeddings.detach().numpy()
clayer.fit_transform(embedding_numpy)  # crashes here saying perplexity must be less than n_samples
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79210901/methods-to-reduce-a-tensor-embedding-to-x-y-z-coordinates[/url]