Я пытаюсь реализовать скрытое самообслуживание с нуля, но при расчете softmax для оценок сходства я получаю странные результаты. Я просмотрел документацию и другие вопросы, размещенные здесь, но до сих пор не могу понять, что делаю неправильно. Ниже приведен тест, который я подготовил с результатами.
Что я пробовал:
Я пытаюсь реализовать скрытое самообслуживание с нуля, но при расчете softmax для оценок сходства я получаю странные результаты. Я просмотрел документацию и другие вопросы, размещенные здесь, но до сих пор не могу понять, что делаю неправильно. Ниже приведен тест, который я подготовил с результатами. Что я пробовал: [code]print(sims) print(torch.nn.functional.softmax(sims, dim=1)) [/code] Это дает следующий результат: [code]tensor([[ 1., 2., 3., 4., 5., 6.], [ 7., 8., 9., 10., 11., 12.], [13., 14., 15., 16., 17., 18.], [19., 20., 21., 22., 23., 24.], [25., 26., 27., 28., 29., 30.], [31., 32., 33., 34., 35., 36.], [37., 38., 39., 40., 41., 42.], [43., 44., 45., 46., 47., 48.], [49., 50., 51., 52., 53., 54.], [55., 56., 57., 58., 59., 60.]])
tensor([[0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337], [0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337], [0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337], [0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337], [0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337], [0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337], [0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337], [0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337], [0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337], [0.0043, 0.0116, 0.0315, 0.0858, 0.2331, 0.6337]]) [/code] В качестве примера я ожидаю вывода функции softmax в первой строке «sims» [code][ 1., 2., 3., 4., 5., 6.] [/code] чтобы показать [code][ .047, .095, .142, .19, .238, .285] [/code] что будет точным процентом внимания softmax, который необходимо применить к моему тензору значений
Когда я использую torch.nn.functional.linear, я иногда обнаруживаю, что выходные данные отличаются от результатов умножения каждой строки A и W. Например, если A.shape равен , W.shape — , res0 = F.linear(A, Weight=B,bias=None), res0 =59598184. , но...
У меня есть декодер model.decoder, который состоит из серии слоев Convolutional Batchnorm и ReLU. У меня есть скрытый вектор latent_l, который представляет собой 8-мерный скрытый вектор, скажем, имеет размерность (1, 8, 1, 1), где 1 — размер пакета....
В следующем коде
import torch
from torch.nn.functional import linear
a=torch.ones(2,3).type(torch.float16)
b=torch.ones(2,3).type(torch.float16)
linear(a,b)
Что такое Computepe линейного, FP32 или FP16 или другого?>
В следующем коде
import torch
from torch.nn.functional import linear
a=torch.ones(2,3).type(torch.float16)
b=torch.ones(2,3).type(torch.float16)
linear(a,b)
Что такое Computepe линейного, FP32 или FP16 или другого?>
В следующем коде
import torch
from torch.nn.functional import linear
a=torch.ones(2,3).type(torch.float16)
b=torch.ones(2,3).type(torch.float16)
linear(a,b)
Что такое Computepe линейного, FP32 или FP16 или другого?>