Флэш-внимание дает разные результаты для токенов с одинаковыми вложениями? - Цифровое Кемерово

Флэш-внимание дает разные результаты для токенов с одинаковыми вложениями? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Флэш-внимание дает разные результаты для токенов с одинаковыми вложениями?

Цитата

Сообщение Anonymous » 28 окт 2024, 02:09

Я учусь интегрировать Flash Attention в свою модель, чтобы ускорить обучение. Я тестирую функцию, чтобы определить лучший способ ее реализации. Однако я столкнулся с проблемой, из-за которой Flash Attention выдает разные результаты для токенов с идентичными встраиваниями. Я не уверен, совершаю ли я принципиальную ошибку или здесь есть что-то еще.
Вот фрагмент кода, который я использую:

Код: Выделить всё

import torch
from flash_attn.modules.mha import FlashSelfAttention

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
fa_attn = FlashSelfAttention(deterministic=True)
fa_attn.eval()

# Assuming batch_size, seq_len, heads, dim = 1, 4, 1, 4
x = torch.tensor([[0.1, 0.1, 0.1, 0.1],
[0.1, 0.1, 0.1, 0.1],
[0.1, 0.1, 0.1, 0.1],
[0.1, 0.1, 0.1, 0.1]])
q = x.unsqueeze(0).unsqueeze(2)
k = q.clone()
v = q.clone()
qkv = torch.stack([q, k, v], dim=2).half().to(device)
output = fa_attn(qkv)
print(output)

результат:

Код: Выделить всё

tensor([[[[0.1000, 0.1000, 0.1000, 0.1000]],
[[0.0757, 0.0757, 0.0757, 0.0757]],
[[0.1000, 0.1000, 0.1000, 0.1000]],
[[0.0757, 0.0757, 0.0757, 0.0757]]]], device='cuda:0', dtype=torch.float16)

Еще один

Код: Выделить всё

x = torch.tensor([[0.1, 0.1, 0.1, 0.1], [0.1, 0.1, 0.1, 0.1], [0.1, 0.1, 0.1, 0.1]])
q = x.unsqueeze(0).unsqueeze(2)
k = q.clone()
v = q.clone()
qkv = torch.stack([q, k, v], dim=2).half().to(device)
output = fa_attn(qkv)
output

результат:

Код: Выделить всё

tensor([[[[ 0.1000,  0.1000,  0.1000,  0.1000]],

[[-0.5483,  0.5166, -0.5483,  0.5166]],

[[ 0.1000,  0.1000,  0.1000,  0.1000]]]], device='cuda:0',
dtype=torch.float16)

Большое спасибо.

Подробнее здесь: https://stackoverflow.com/questions/791 ... embeddings

Реклама

1730070568

Anonymous

Я учусь интегрировать Flash Attention в свою модель, чтобы ускорить обучение. Я тестирую функцию, чтобы определить лучший способ ее реализации. Однако я столкнулся с проблемой, из-за которой Flash Attention выдает разные результаты для токенов с идентичными встраиваниями. Я не уверен, совершаю ли я принципиальную ошибку или здесь есть что-то еще.
Вот фрагмент кода, который я использую:
[code]import torch
from flash_attn.modules.mha import FlashSelfAttention

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
fa_attn = FlashSelfAttention(deterministic=True)
fa_attn.eval()

# Assuming batch_size, seq_len, heads, dim = 1, 4, 1, 4
x = torch.tensor([[0.1, 0.1, 0.1, 0.1],
[0.1, 0.1, 0.1, 0.1],
[0.1, 0.1, 0.1, 0.1],
[0.1, 0.1, 0.1, 0.1]])
q = x.unsqueeze(0).unsqueeze(2)
k = q.clone()
v = q.clone()
qkv = torch.stack([q, k, v], dim=2).half().to(device)
output = fa_attn(qkv)
print(output)
[/code]
результат:
[code]tensor([[[[0.1000, 0.1000, 0.1000, 0.1000]],
[[0.0757, 0.0757, 0.0757, 0.0757]],
[[0.1000, 0.1000, 0.1000, 0.1000]],
[[0.0757, 0.0757, 0.0757, 0.0757]]]], device='cuda:0', dtype=torch.float16)
[/code]
Еще один
[code]x = torch.tensor([[0.1, 0.1, 0.1, 0.1], [0.1, 0.1, 0.1, 0.1], [0.1, 0.1, 0.1, 0.1]])
q = x.unsqueeze(0).unsqueeze(2)
k = q.clone()
v = q.clone()
qkv = torch.stack([q, k, v], dim=2).half().to(device)
output = fa_attn(qkv)
output
[/code]
результат:
[code]tensor([[[[ 0.1000,  0.1000,  0.1000,  0.1000]],

[[-0.5483,  0.5166, -0.5483,  0.5166]],

[[ 0.1000,  0.1000,  0.1000,  0.1000]]]], device='cuda:0',
dtype=torch.float16)
[/code]
Большое спасибо. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79131679/flash-attention-gives-different-result-for-tokens-of-identical-embeddings[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Элементар Пейдж показывает флэш -флэш -невозможного контента [закрыто]

Последнее сообщение Anonymous « 12 авг 2025, 22:19
Добавлено в форуме Php

Anonymous » 12 авг 2025, 22:19 » в форуме Php

Я создал новую страницу в Elementor (WordPress). Когда я открываю страницу в первый раз в браузере, она загружается без каких -либо стилей. После короткой задержки появляются стили.
Я попробовал несколько решений, таких как изменение метода печати...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
12 авг 2025, 22:19
Я застрял, пытаясь установить флэш-внимание (Flash-Attn)

Последнее сообщение Anonymous « 05 май 2025, 00:03
Добавлено в форуме Python

Anonymous » 05 май 2025, 00:03 » в форуме Python

Я пытаюсь установить флэш-внимание с помощью PIP установить Flash-ATTN-no-build-isolation
(я на самом деле пытаюсь получить запуск MeshanyThingV2, и это один из многих утомительных шагов)
Я установил Miniconda, переключенный на Python 3.10,...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
05 май 2025, 00:03
Я застрял, пытаясь установить флэш-внимание (Flash-Attn)

Последнее сообщение Anonymous « 05 май 2025, 03:24
Добавлено в форуме Python

Anonymous » 05 май 2025, 03:24 » в форуме Python

Я пытаюсь установить флэш-внимание с помощью PIP установить Flash-ATTN-no-build-isolation
(я на самом деле пытаюсь получить запуск MeshanyThingV2, и это один из многих утомительных шагов)
Я установил Miniconda, переключенный на Python 3.10,...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
05 май 2025, 03:24
Optuna: разные результаты даже с одинаковыми random_state

Последнее сообщение Anonymous « 10 июн 2025, 14:19
Добавлено в форуме Python

Anonymous » 10 июн 2025, 14:19 » в форуме Python

Я пытаюсь понять, почему запуск приведенного ниже кода для настройки гиптерпаметра с помощью Optuna дает мне разные значения параметров, даже если я использую один и тот же код с одним и тем же random_state = 42 . Откуда случайная часть?
import...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
10 июн 2025, 14:19
Xsd2java генерирует классы с одинаковыми именами, поскольку в xsd есть элементы с одинаковыми именами, вложенные друг в

Последнее сообщение Anonymous « 05 дек 2024, 09:04
Добавлено в форуме JAVA

Anonymous » 05 дек 2024, 09:04 » в форуме JAVA

Вот как выглядит мой xsd:

...

Вот моя конфигурация задачи xsd2java:
task xsd2java {
def jaxbTargetDir = file( src/main/java )
def bindingFile = file('src/main/resources/jaxb/bindings.xml') // Specify the path to your...

0 Ответы

61 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 09:04

Вернуться в «Python»

Programmiererforum