Сохраняет ли добавление куча нулей в встраивание слов в семантическое значение? - Цифровое Кемерово

Сохраняет ли добавление куча нулей в встраивание слов в семантическое значение? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Сохраняет ли добавление куча нулей в встраивание слов в семантическое значение?

Цитата

Сообщение Anonymous » 12 июл 2025, 22:08

I Проанализировали предварительно загруженные 300-размерные векторы в 768-размерные векторы, просто проведя дополнительные 468 нулей. Я сделал это так, чтобы это было совместимо с матрицами запроса, ключей и значений, которые я загрузил в Дистильберт с помощью библиотеки трансформаторов. Ниже мой код < /p>
from transformers import DistilBertModel
import numpy as np

model = DistilBertModel.from_pretrained("distilbert-base-uncased")

layer_0 = model.transformer.layer[0]

W_q = layer_0.attention.q_lin.weight.detach().numpy()
W_k = layer_0.attention.k_lin.weight.detach().numpy()
W_v = layer_0.attention.v_lin.weight.detach().numpy()

zeros = np.zeros((len(input_matrix), 468))
expanded_matrix = np.hstack((input_matrix, zeros))
< /code>
Матрица ввода представляет собой матрицу (ndarray) всех слов, которые вводят мой пользователь. Это часть механизма самостоятельного внимания, который я написал, который будет создавать модифицированную матрицу, которую я подам в сеть подачи вперед, которая затем даст мне эмоциональный тон текста моего пользователя. Мне нужно знать, приведет ли добавление этих дополнительных нулей к тому, что мои результаты будут искажены из -за неверного механизма самообслуживания. Важно отметить, что причина, по которой я добавил эти нули, заключается в том, что 3 извлеченные матрицы имеют форму (768, 768) каждый, и я должен размножить входную матрицу на эти параметры. Учитывая, что без добавления нулей форма входной матрицы составляет (num_of_words_of_input, 300), умножение матрицы (с помощью @) вернет ошибку (300! = 768). Я знаю, что я могу использовать токенизатор дистильберта, как не очень важно, чтобы я этого не сделал. Также обратите внимание, что моя логика, стоящая за этим, заключается в том, что когда вы добавляете нули к концу вектора, чтобы ввести его в более высокое пространство, он поддерживает такую же величину и направление, только пространство, в котором он находится, имеет больше размеров. Например, если 2D -вектор (3, 2) помещается в 3D, сделав его (3, 2, 0), то он указывает в одном и том же направлении и с одинаковой величиной только в трехмерном пространстве.Q = expanded_matrix @ W_q
#Q = Query of matrix so that the query of the first word in my input corresponds with the first row of Q
K = expanded_matrix @ W_k
#Same here
V = expanded_matrix @ W_v
#Same her as well
< /code>
Я получил результаты, которые показали ожидаемые отношения между словами. Здесь нет ничего не кажется. Дело в том, что для слоя 0 (я вычислял точечные продукты для всех 6 слоев) все значения точечных продуктов были в негативных. Значит ли это, что я сделал не так? Для остальных 5 слоев некоторые результаты были 0 или ниже (ожидаемые), а другие были выше (также ожидаемые). < /P>
Я заинтригован, услышав любые возможные идеи, и любые ответы очень высоко ценится. Если вы знаете другой трансформатор с предварительно обученным запросом, матрицами ключей и значений, которые совместимы с моей входной матрицей (num_of_words_of_input, 300) (до расширения), то сообщите мне. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/796 ... ic-meaning

Реклама

1752347322

Anonymous

 I Проанализировали предварительно загруженные 300-размерные векторы в 768-размерные векторы, просто проведя дополнительные 468 нулей. Я сделал это так, чтобы это было совместимо с матрицами запроса, ключей и значений, которые я загрузил в Дистильберт с помощью библиотеки трансформаторов. Ниже мой код < /p>
from transformers import DistilBertModel
import numpy as np

model = DistilBertModel.from_pretrained("distilbert-base-uncased")

layer_0 = model.transformer.layer[0]

W_q = layer_0.attention.q_lin.weight.detach().numpy()
W_k = layer_0.attention.k_lin.weight.detach().numpy()
W_v = layer_0.attention.v_lin.weight.detach().numpy()

zeros = np.zeros((len(input_matrix), 468))
expanded_matrix = np.hstack((input_matrix, zeros))
< /code>
Матрица ввода представляет собой матрицу (ndarray) всех слов, которые вводят мой пользователь. Это часть механизма самостоятельного внимания, который я написал, который будет создавать модифицированную матрицу, которую я подам в сеть подачи вперед, которая затем даст мне эмоциональный тон текста моего пользователя. Мне нужно знать, приведет ли добавление этих дополнительных нулей к тому, что мои результаты будут искажены из -за неверного механизма самообслуживания. Важно отметить, что причина, по которой я добавил эти нули, заключается в том, что 3 извлеченные матрицы имеют форму (768, 768) каждый, и я должен размножить входную матрицу на эти параметры. Учитывая, что без добавления нулей форма входной матрицы составляет (num_of_words_of_input, 300), умножение матрицы (с помощью @) вернет ошибку (300! = 768). Я знаю, что я могу использовать токенизатор дистильберта, как не очень важно, чтобы я этого не сделал. Также обратите внимание, что моя логика, стоящая за этим, заключается в том, что когда вы добавляете нули к концу вектора, чтобы ввести его в более высокое пространство, он поддерживает такую же величину и направление, только пространство, в котором он находится, имеет больше размеров. Например, если 2D -вектор (3, 2) помещается в 3D, сделав его (3, 2, 0), то он указывает в одном и том же направлении и с одинаковой величиной только в трехмерном пространстве.Q = expanded_matrix @ W_q
#Q[i] = Query of matrix[i] so that the query of the first word in my input corresponds with the first row of Q
K = expanded_matrix @ W_k
#Same here
V = expanded_matrix @ W_v
#Same her as well
< /code>
Я получил результаты, которые показали ожидаемые отношения между словами. Здесь нет ничего не кажется. Дело в том, что для слоя 0 (я вычислял точечные продукты для всех 6 слоев) все значения точечных продуктов были в негативных. Значит ли это, что я сделал не так? Для остальных 5 слоев некоторые результаты были 0 или ниже (ожидаемые), а другие были выше (также ожидаемые). < /P>
Я заинтригован, услышав любые возможные идеи, и любые ответы очень высоко ценится. Если вы знаете другой трансформатор с предварительно обученным запросом, матрицами ключей и значений, которые совместимы с моей входной матрицей (num_of_words_of_input, 300) (до расширения), то сообщите мне. Спасибо!  

Подробнее здесь: [url]https://stackoverflow.com/questions/79699508/does-adding-a-bunch-of-zeros-to-word-embeddings-maintain-semantic-meaning[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Сохраняет ли добавление куча нулей в встраивание слов в семантическое значение?

Последнее сообщение Anonymous « 13 июл 2025, 08:28
Добавлено в форуме Python

Anonymous » 13 июл 2025, 08:28 » в форуме Python

I Проанализировали предварительно загруженные 300-размерные векторы в 768-размерные векторы, просто проведя дополнительные 468 нулей. Я сделал это так, чтобы это было совместимо с матрицами запроса, ключей и значений, которые я загрузил в...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
13 июл 2025, 08:28
Сохраняет ли добавление нулей к встраиванию слов, чтобы увеличить размерность, сохраняет их семантическое значение?

Последнее сообщение Anonymous « 14 июл 2025, 03:25
Добавлено в форуме Python

Anonymous » 14 июл 2025, 03:25 » в форуме Python

I Проанализировано предварительно загруженные 300-размерные векторы в 768 размерных векторов с помощью простого hstack , дополнительно 468 нулей. Я сделал это так, чтобы это было совместимо с матрицами запроса, ключей и значений, которые я загрузил...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
14 июл 2025, 03:25
Сохраняет ли добавление нулей к встраиванию слов, чтобы увеличить размерность, сохраняет их семантическое значение? [зак

Последнее сообщение Anonymous « 15 июл 2025, 13:16
Добавлено в форуме Python

Anonymous » 15 июл 2025, 13:16 » в форуме Python

I Проанализировано предварительно загруженные 300-размерные векторы в 768 размерных векторов с помощью простого hstack , дополнительно 468 нулей. Я сделал это так, чтобы это было совместимо с матрицами запроса, ключей и значений, которые я загрузил...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
15 июл 2025, 13:16
Ansible/jinja, добавление значений ключей из одного списка слов в другой список слов, если одно значение ключа совпадает

Последнее сообщение Anonymous « 20 май 2024, 08:57
Добавлено в форуме Linux

Anonymous » 20 май 2024, 08:57 » в форуме Linux

Я пытаюсь получить значения ключей из одного списка диктовок и вставить их в словари в другом списке диктовок, если один из ключей соответствует, Джиндже это не нравится.
используя ansible -core 2.15.11 с коллекциями Community.general и posix на...

0 Ответы

78 Просмотры

Последнее сообщение Anonymous
20 май 2024, 08:57
Как рассчитать встраивание слов и предложений с помощью GPT-2?

Последнее сообщение Anonymous « 03 янв 2024, 05:26
Добавлено в форуме Python

Anonymous » 03 янв 2024, 05:26 » в форуме Python

Я работаю над программой, которая вычисляет встраивание слов и предложений с использованием GPT-2, в частности, над классом GPT2Model. Для встраивания слов я извлекаю последнее скрытое состояние outputs после пересылки input_ids, которое имеет форму...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
03 янв 2024, 05:26

Вернуться в «Python»

Programmiererforum