Как инициализация весов с большим значением вызывает проблему исчезновения градиента в нейронной сети

Как инициализация весов с большим значением вызывает проблему исчезновения градиента в нейронной сети ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как инициализация весов с большим значением вызывает проблему исчезновения градиента в нейронной сети

Цитата

Сообщение Anonymous » 01 мар 2026, 18:57

Я смотрел это руководство по инициализации весов в нейронной сети, и я не могу понять это утверждение:
В случае активации сигмоида Танха, если мы инициализируем веса с большими значениями (диапазон [0,1)), то обучение становится медленным и может возникнуть проблема с исчезающим градиентом.
Но как это возможно, я думал, что VGP возникает из-за малых значений градиентов, что вызвано маленькими весами или небольшим выходом из активация

Подробнее здесь: https://stackoverflow.com/questions/798 ... oblem-in-n

1772380665

Anonymous

Я смотрел это руководство по инициализации весов в нейронной сети, и я не могу понять это утверждение:
В случае активации сигмоида Танха, если мы инициализируем веса с большими значениями (диапазон [0,1)), то обучение становится медленным и может возникнуть проблема с исчезающим градиентом.
Но как это возможно, я думал, что VGP возникает из-за малых значений градиентов, что вызвано маленькими весами или небольшим выходом из активация 

Подробнее здесь: [url]https://stackoverflow.com/questions/79898762/how-initializing-weights-with-large-value-causes-vanishing-gradient-problem-in-n[/url]

Ответить

1 сообщение • Страница 1 из 1