Как инициализация весов с большим значением вызывает проблему исчезновения градиента в нейронной сетиPython

Программы на Python
Ответить
Anonymous
 Как инициализация весов с большим значением вызывает проблему исчезновения градиента в нейронной сети

Сообщение Anonymous »

Я смотрел это руководство по инициализации весов в нейронной сети, и я не могу понять это утверждение:
В случае активации сигмоида Танха, если мы инициализируем веса с большими значениями (диапазон [0,1)), то обучение становится медленным и может возникнуть проблема с исчезающим градиентом.
Но как это возможно, я думал, что VGP возникает из-за малых значений градиентов, что вызвано маленькими весами или небольшим выходом из активация

Подробнее здесь: https://stackoverflow.com/questions/798 ... oblem-in-n
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»