Почему мы изменяем ключ, запрос и тензоры ценностей в многоуровневом внимании? - Цифровое Кемерово

Почему мы изменяем ключ, запрос и тензоры ценностей в многоуровневом внимании? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Почему мы изменяем ключ, запрос и тензоры ценностей в многоуровневом внимании?

Цитата

Сообщение Anonymous » 12 апр 2025, 23:16

В моей реализации многоуровневого внимания у меня есть их в __init __ ()

Код: Выделить всё

class MultiHeadAttentionLayer(nn.Module):
def __init__(self,d_in,d_out,context_length,dropout,num_heads,use_bias=False):
super().__init__()
self.d_out=d_out
self.num_heads=num_heads
# In multi-head attention, the output dimension (d_out) is split across multiple attention heads.
# Each head processes a portion of the total output dimensions independently before being concatenated back together.
self.head_dim=d_out//num_heads
self.query_weight = nn.Linear(d_in, d_out, bias=use_bias)
self.key_weight = nn.Linear(d_in, d_out, bias=use_bias)
self.value_weight = nn.Linear(d_in, d_out, bias=use_bias)
< /code>
Это метод прямого < /p>
def forward(self,x):
batch_size,sequence_length,d_in=x.shape
keys=self.key_weight(x)
queries=self.query_weight(x)
values=self.value_weight(x)
# RESHAPING
# .view() is a PyTorch tensor method that reshapes a tensor without changing its underlying data. It returns a new tensor with the same data but in a different shape.
keys=keys.view(batch_size,sequence_length,self.num_heads,self.head_dim)
values=values.view(batch_size,sequence_length,self.num_heads,self.head_dim)
queries=queries.view(batch_size,sequence_length,self.num_heads,self.head_dim)

Я понимаю, что d_out разделен на несколько голов внимания, но я не совсем уверен, почему это изменение необходимо. Как добавление num_heads в качестве нового измерения влияет на вычисление внимания, и что произойдет, если мы пропустим этот шаг и сохранили форму как «batch_size, sequence_length, d_in»

Подробнее здесь: https://stackoverflow.com/questions/795 ... -attention

Реклама

1744488990

Anonymous

 В моей реализации многоуровневого внимания у меня есть их в __init __ ()  
[code]class MultiHeadAttentionLayer(nn.Module):
def __init__(self,d_in,d_out,context_length,dropout,num_heads,use_bias=False):
super().__init__()
self.d_out=d_out
self.num_heads=num_heads
# In multi-head attention, the output dimension (d_out) is split across multiple attention heads.
# Each head processes a portion of the total output dimensions independently before being concatenated back together.
self.head_dim=d_out//num_heads
self.query_weight = nn.Linear(d_in, d_out, bias=use_bias)
self.key_weight = nn.Linear(d_in, d_out, bias=use_bias)
self.value_weight = nn.Linear(d_in, d_out, bias=use_bias)
< /code>
Это метод прямого < /p>
def forward(self,x):
batch_size,sequence_length,d_in=x.shape
keys=self.key_weight(x)
queries=self.query_weight(x)
values=self.value_weight(x)
# RESHAPING
# .view() is a PyTorch tensor method that reshapes a tensor without changing its underlying data. It returns a new tensor with the same data but in a different shape.
keys=keys.view(batch_size,sequence_length,self.num_heads,self.head_dim)
values=values.view(batch_size,sequence_length,self.num_heads,self.head_dim)
queries=queries.view(batch_size,sequence_length,self.num_heads,self.head_dim)
[/code]
Я понимаю, что d_out  разделен на несколько голов внимания, но я не совсем уверен, почему это изменение необходимо. Как добавление num_heads  в качестве нового измерения влияет на вычисление внимания, и что произойдет, если мы пропустим этот шаг и сохранили форму как «batch_size, sequence_length, d_in»  

Подробнее здесь: [url]https://stackoverflow.com/questions/79542733/why-do-we-reshape-key-query-and-value-tensors-in-multi-head-attention[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему NavigationLink иногда не работает, даже если мы изменяем переменную isActive?

Последнее сообщение Anonymous « 22 май 2024, 22:48
Добавлено в форуме IOS

Anonymous » 22 май 2024, 22:48 » в форуме IOS

Вы когда-нибудь сталкивались с тем, что NavigationLink иногда не работает, но когда вы прокручиваете список вниз или делаете что-то еще, навигация срабатывает?
NavigationView {
List {
//.... some views
}
NavigationLink(destination:...

0 Ответы

50 Просмотры

Последнее сообщение Anonymous
22 май 2024, 22:48
Соответствующий способ обработки исключений в многоуровневом приложении Java

Последнее сообщение Anonymous « 16 июл 2024, 13:53
Добавлено в форуме JAVA

Anonymous » 16 июл 2024, 13:53 » в форуме JAVA

В моем приложении есть три уровня: контроллер, сервис и DAO. Мои уровни контроллера и сервиса находятся в весеннем режиме, а уровень DAO находится в Hibernate 6. Мой вопрос заключается в том, какой наиболее подходящий способ обработки исключений во...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
16 июл 2024, 13:53
Будут ли в многоуровневом планировщике очередей процессы с более высоким приоритетом вытеснять уже запущенные процессы с

Последнее сообщение Anonymous « 19 ноя 2024, 00:08
Добавлено в форуме Linux

Anonymous » 19 ноя 2024, 00:08 » в форуме Linux

Предположим, у нас есть две очереди: приоритет 1 с циклическим перебором и приоритет 2 с наименьшим оставшимся временем.
В момент времени 0 процесс A с пакетной нагрузкой ЦП на 10 единиц находится в SRTF. очередь. Он начинает выполняться, и во время...

0 Ответы

45 Просмотры

Последнее сообщение Anonymous
19 ноя 2024, 00:08
Переопределить генераторы ценностей EF Core

Последнее сообщение Anonymous « 04 окт 2024, 22:48
Добавлено в форуме C#

Anonymous » 04 окт 2024, 22:48 » в форуме C#

Я хочу переопределить GuidValueGenerator по умолчанию, чтобы он использовал метод Guid.CreateVersion7() вместо Guid.NewGuid().
Я попытался установить собственный генератор значений для каждого свойства Guid, перебирающего метаданные построителя...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
04 окт 2024, 22:48
Переопределить генераторы ценностей EF Core

Последнее сообщение Anonymous « 05 окт 2024, 15:19
Добавлено в форуме C#

Anonymous » 05 окт 2024, 15:19 » в форуме C#

Я хочу переопределить GuidValueGenerator по умолчанию, чтобы он использовал метод Guid.CreateVersion7() вместо Guid.NewGuid().
Я попытался установить собственный генератор значений для каждого свойства Guid, перебирающего метаданные построителя...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
05 окт 2024, 15:19

Вернуться в «Python»

Programmiererforum