В чем разница между различными бэкэндами в torch.nn.attention.SDPBackend и что они означают?Python

Программы на Python
Ответить
Anonymous
 В чем разница между различными бэкэндами в torch.nn.attention.SDPBackend и что они означают?

Сообщение Anonymous »

В документации pytorch по SDPBackend есть несколько перечислений, доступных для использования с менеджером контекста.
ОШИБКА: произошла ошибка при попытке определить серверную часть.

MATH: математический механизм для масштабирования внимания скалярного произведения.

FLASH_ATTENTION: механизм мгновенного внимания для масштабированного внимания скалярного произведения.

EFFICIENT_ATTENTION: эффективный механизм внимания для масштабированное внимание к скалярному произведению.

CUDNN_ATTENTION: серверная часть cuDNN для масштабированного внимания к скалярному произведению.
Что они означают и чем они отличаются?Что такое бэкэнд EFFICIENT ATTENTION? И еще: я проверил с помощью torch.backends.cuda.flash_sdp_enabled() на машине без графического процессора, и это правда, но разве флэш-внимание не должно быть предназначено только для графических процессоров и основано на использовании кэш-памяти графического процессора? Является ли эффективное внимание всего лишь вспышкой внимания 2?

Подробнее здесь: https://stackoverflow.com/questions/791 ... sdpbackend
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»