У меня есть модель обнимающегося лица, и я хотел бы использовать ее для сравнения слов. Сначала я думал выполнить серию вычислений сходства между интересующими словами, но быстро обнаружил, что эта проблема будет экспоненциально возрастать по мере увеличения количества слов.
Решение, о котором я подумал. строит грамму пропуска, где все слова располагаются на двухмерной плоскости, а затем можно просто выполнить кластеризацию по координатам, чтобы найти похожие слова. Проблема здесь в том, что для этого требуется модель bert и нижний слой внедрения, который можно отобразить.
Поскольку у меня есть предварительно обученная модель, я не знаю, смогу ли я создать грамму пропуска. с от этого. Я надеялся вычислить вложение и с помощью преобразования преобразовать вложение в координаты, которые я смогу построить самостоятельно. Хотя я не знаю, возможно ли это или разумно.
Я пытался сделать это с помощью кода ниже
from sklearn.manifold import TSNE
from transformers import AutoModel, AutoTokenizer
# target word
word = ["Slartibartfast"]
# model setup
model = 'Alibaba-NLP/gte-multilingual-base'
tokenizer = AutoTokenizer.from_pretrained(model)
auto_model = AutoModel.from_pretrained(model, trust_remote_code=True)
# embbed and calculate
batch_dict = self.tokenizer(text_list, max_length=8192, padding=True, truncation=True, return_tensors='pt')
result = auto_model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0][:768]
# transform to coordinates
clayer = TSNE(n_components=3, learning_rate='auto', init='random', perplexity=50)
embedding_numpy = embeddings.detach().numpy()
clayer.fit_transform(embedding_numpy) # crashes here saying perplexity must be less than n_samples
Подробнее здесь: https://stackoverflow.com/questions/792 ... oordinates
Методы уменьшения встраивания тензора до координат x, y, z ⇐ Python
Программы на Python
-
Anonymous
1732251545
Anonymous
У меня есть модель обнимающегося лица, и я хотел бы использовать ее для сравнения слов. Сначала я думал выполнить серию вычислений сходства между интересующими словами, но быстро обнаружил, что эта проблема будет экспоненциально возрастать по мере увеличения количества слов.
Решение, о котором я подумал. строит грамму пропуска, где все слова располагаются на двухмерной плоскости, а затем можно просто выполнить кластеризацию по координатам, чтобы найти похожие слова. Проблема здесь в том, что для этого требуется модель bert и нижний слой внедрения, который можно отобразить.
Поскольку у меня есть предварительно обученная модель, я не знаю, смогу ли я создать грамму пропуска. с от этого. Я надеялся вычислить вложение и с помощью преобразования преобразовать вложение в координаты, которые я смогу построить самостоятельно. Хотя я не знаю, возможно ли это или разумно.
Я пытался сделать это с помощью кода ниже
from sklearn.manifold import TSNE
from transformers import AutoModel, AutoTokenizer
# target word
word = ["Slartibartfast"]
# model setup
model = 'Alibaba-NLP/gte-multilingual-base'
tokenizer = AutoTokenizer.from_pretrained(model)
auto_model = AutoModel.from_pretrained(model, trust_remote_code=True)
# embbed and calculate
batch_dict = self.tokenizer(text_list, max_length=8192, padding=True, truncation=True, return_tensors='pt')
result = auto_model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0][:768]
# transform to coordinates
clayer = TSNE(n_components=3, learning_rate='auto', init='random', perplexity=50)
embedding_numpy = embeddings.detach().numpy()
clayer.fit_transform(embedding_numpy) # crashes here saying perplexity must be less than n_samples
Подробнее здесь: [url]https://stackoverflow.com/questions/79210901/methods-to-reduce-a-tensor-embedding-to-x-y-z-coordinates[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия