Проблема со слоем softmax в нейронной сети C++

Проблема со слоем softmax в нейронной сети C++ ⇐ C++

1 сообщение • Страница 1 из 1

Anonymous

Проблема со слоем softmax в нейронной сети C++

Цитата

Сообщение Anonymous » 31 дек 2023, 20:25

Я реализовал простую нейронную сеть на C++. Кажется, он работает нормально для плотно связанных слоев, но у меня возникают проблемы при добавлении слоя softmax для классификации.

Сама функция softmax, которая генерирует значения активации на основе входных данных, выглядит корректной, но когда я обучаю сеть, она не улучшает классификацию. Я думаю, что проблема в коде обратного распространения, который отлично работает для плотного слоя. Так что, вероятно, дело в расчетах производных для слоя softmax.

Вероятно, с моим кодом что-то просто не так? Я перепробовал множество вариантов, но ничего не работает.

вот реализации функций активации:

double active_function_sigmoid(const double input) { вернуть 1/(1 + exp(-input)); } двойная активация_function_sigmoid_derivative (константный двойной вход) { возврат ввода * (1 – ввод); } двойная активация_функция_relu (константный двойной вход) { вернуть std::max(0.0, input); } двойная активация_функция_relu_derivative (константный двойной вход) { возврат (вход > 0,0)? 1,0:0,0; } двойная активация_функция_softmax (константный двойной ввод) { // просто возвращаем входные данные, они будут классифицированы позже обратный ввод; } двойная активация_function_softmax_derivative (константный двойной вход) { возврат ввода * (1 – ввод); } реализации функций стоимости:

double cost_function_mse(const double предсказание, const double target) { // Функция стоимости MSE, производная которой ниже представляет собой простое сложение! return 0,5 * pow((прогнозируемое - цель), 2); } двойная стоимость_функция_mse_derivative (const double предсказанная, const двойная цель) { // МСЭ прогнозируемая доходность - цель; } двойная стоимость_функция_rmse (константная двойная прогнозируемая, константная двойная цель) { return sqrt(0.5 * pow((прогнозируемое - цель), 2)); } двойная стоимость_функция_rmse_derivative (const double предсказанная, const двойная цель) { return (прогнозируемая цель) / sqrt(2.0); } двойная стоимость_функция_crossEntropy (константная двойная прогнозируемая, константная двойная цель) { // не используется, поскольку softmax выполняется по всему массиву. return - цель*exp(прогнозируется); } двойная стоимость_функция_crossEntropy_derivative (const double предсказанная, const двойная цель) { прогнозируемая доходность - цель; } Функция обратного распространения:

double Layer::BackwardsPass( константный слой и предыдущий слой, константный слой* nextLayer, const двойная скорость обучения, константный столбец и цели, CostFuncPtr ср, CostFuncPtr cfD) { двойная накопленная ошибка = 0; for (uint32 n=0; n numNeurons; k++) { error[n] += nextLayer->weights[k][n] * nextLayer->gradients[k]; } } если (!forClassification) градиенты[n] = ошибки[n] * afD(прогнозируется); // вызывает производную функцию активации еще градиенты[n] = прогнозируемые - цели[n]; } // Обновляем веса for (uint32 n=0; n

1704043518

Anonymous


Я реализовал простую нейронную сеть на C++. Кажется, он работает нормально для плотно связанных слоев, но у меня возникают проблемы при добавлении слоя softmax для классификации.
 
Сама функция softmax, которая генерирует значения активации на основе входных данных, выглядит корректной, но когда я обучаю сеть, она не улучшает классификацию. Я думаю, что проблема в коде обратного распространения, который отлично работает для плотного слоя. Так что, вероятно, дело в расчетах производных для слоя softmax.
 
Вероятно, с моим кодом что-то просто не так? Я перепробовал множество вариантов, но ничего не работает.
 
вот реализации функций активации:
 
double active_function_sigmoid(const double input) {     вернуть 1/(1 + exp(-input)); } двойная активация_function_sigmoid_derivative (константный двойной вход) {     возврат ввода * (1 – ввод); } двойная активация_функция_relu (константный двойной вход) {     вернуть std::max(0.0, input); } двойная активация_функция_relu_derivative (константный двойной вход) {     возврат (вход > 0,0)? 1,0:0,0; } двойная активация_функция_softmax (константный двойной ввод) {     // просто возвращаем входные данные, они будут классифицированы позже     обратный ввод; } двойная активация_function_softmax_derivative (константный двойной вход) {     возврат ввода * (1 – ввод); }  реализации функций стоимости:
 
double cost_function_mse(const double предсказание, const double target) {     // Функция стоимости MSE, производная которой ниже представляет собой простое сложение!     return 0,5 * pow((прогнозируемое - цель), 2); } двойная стоимость_функция_mse_derivative (const double предсказанная, const двойная цель) {     // МСЭ     прогнозируемая доходность - цель; } двойная стоимость_функция_rmse (константная двойная прогнозируемая, константная двойная цель) {     return sqrt(0.5 * pow((прогнозируемое - цель), 2)); } двойная стоимость_функция_rmse_derivative (const double предсказанная, const двойная цель) {     return (прогнозируемая цель) / sqrt(2.0); } двойная стоимость_функция_crossEntropy (константная двойная прогнозируемая, константная двойная цель) {     // не используется, поскольку softmax выполняется по всему массиву.     return - цель*exp(прогнозируется); } двойная стоимость_функция_crossEntropy_derivative (const double предсказанная, const двойная цель) {     прогнозируемая доходность - цель; }  Функция обратного распространения:
 
double Layer::BackwardsPass(     константный слой и предыдущий слой,     константный слой* nextLayer,     const двойная скорость обучения,     константный столбец и цели,     CostFuncPtr ср,     CostFuncPtr cfD) {     двойная накопленная ошибка = 0;     for (uint32 n=0; n numNeurons; k++)             {                 error[n] += nextLayer->weights[k][n] * nextLayer->gradients[k];             }         }         если (!forClassification)             градиенты[n] = ошибки[n] * afD(прогнозируется); // вызывает производную функцию активации         еще             градиенты[n] = прогнозируемые - цели[n];     }     // Обновляем веса     for (uint32 n=0; n

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Torch.nn.functional.softmax дает неточные выходные данные softmax

Последнее сообщение Anonymous « 23 дек 2024, 08:18
Добавлено в форуме Python

Anonymous » 23 дек 2024, 08:18 » в форуме Python

Я пытаюсь реализовать скрытое самообслуживание с нуля, но при расчете softmax для оценок сходства я получаю странные результаты. Я просмотрел документацию и другие вопросы, размещенные здесь, но до сих пор не могу понять, что делаю неправильно. Ниже...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
23 дек 2024, 08:18
В чем разница между слоем внедрения со смещением сразу после этого и линейным слоем в PyTorch?

Последнее сообщение Anonymous « 27 янв 2025, 15:18
Добавлено в форуме Python

Anonymous » 27 янв 2025, 15:18 » в форуме Python

Я читаю книгу «Глубокое обучение для программистов с помощью fastai и PyTorch». Я все еще немного не понимаю, что делает модуль внедрения. Кажется, это короткая и простая сеть, за исключением того, что я не могу понять, что встраивание делает иначе,...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
27 янв 2025, 15:18
В чем разница между встроенным слоем с смещением сразу после этого и линейным слоем в Pytorch

Последнее сообщение Anonymous « 28 янв 2025, 19:26
Добавлено в форуме Python

Anonymous » 28 янв 2025, 19:26 » в форуме Python

Я читаю книгу «Глубокое обучение для кодеров с Fastai & Pytorch». Я все еще немного смущен тем, что делает модуль встраивания. Это кажется короткой и простой сетью, за исключением того, что я не могу обернуть голову вокруг того, что встраивается...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
28 янв 2025, 19:26
Оценка времени как критерия завершения обучения последовательной нейронной сети Keras

Последнее сообщение Гость « 19 сен 2023, 23:31
Добавлено в форуме Python

Гость » 19 сен 2023, 23:31 » в форуме Python

Я разработал модель нейронной сети, показанную ниже, которая имеет два скрытых слоя с 19 узлами. Первоначальная активация — «тан».

Как видите, у меня было два первоначальных критерия обратного вызова. Первый из них основан на EarlyStopping, если...

0 Ответы

88 Просмотры

Последнее сообщение Гость
19 сен 2023, 23:31
Почему этот код возвращает ошибку о форме нейронной сети?

Последнее сообщение Anonymous « 24 окт 2023, 16:35
Добавлено в форуме Python

Anonymous » 24 окт 2023, 16:35 » в форуме Python

Когда я попробовал запустить этот код:-

импортировать панд как pd импортировать тензорный поток как tf из sklearn.model_selection импорт train_test_split набор данных = pd.read_csv ( /content/dataset/cancer.csv ) x = dataset.drop(columns = ) y =...

0 Ответы

68 Просмотры

Последнее сообщение Anonymous
24 окт 2023, 16:35

Вернуться в «C++»