Я смотрел это руководство по инициализации весов в нейронной сети, и я не могу понять это утверждение:
В случае активации сигмоида Танха, если мы инициализируем веса с большими значениями (диапазон [0,1)), то обучение становится медленным и может возникнуть проблема с исчезающим градиентом.
Но как это возможно, я думал, что VGP возникает из-за малых значений градиентов, что вызвано маленькими весами или небольшим выходом из активация
Подробнее здесь: https://stackoverflow.com/questions/798 ... oblem-in-n
Мобильная версия