Как избежать потери нана (с первой итерации) и отсутствия градиентов? - Цифровое Кемерово

Как избежать потери нана (с первой итерации) и отсутствия градиентов? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как избежать потери нана (с первой итерации) и отсутствия градиентов?

Цитата

Сообщение Anonymous » 25 июн 2024, 16:54

Я пытаюсь предсказать/подобрать коэффициенты фильтра с помощью MLP, моя целевая функция:

Однако система застряла в тех же потерях (nan), и не происходит никакого обучения или обновления.
Когда я удаляю lfilter и использую пакетный_лосс = torch.nn.functional.mse_loss(y, target_seq_batch) для потери , алгоритм сходится.
Код
import time
import torch
import torchaudio
import numpy as np
from tqdm import tqdm
from torchaudio.functional import lfilter
from torch.optim import Adam, lr_scheduler

# Set the device
hardware = "cpu"
device = torch.device(hardware)

class FilterNet(torch.nn.Module):
def __init__(self, input_size, hidden_size, output_size, num_batches=1, num_biquads=1, num_layers=1, fs=44100):
super(FilterNet, self).__init__()
self.eps = 1e-8
self.fs = fs
self.dirac = self.get_dirac(fs, 0, grad=True) # generate a dirac
self.mlp = torch.nn.Sequential(torch.nn.Linear(input_size, 100),
torch.nn.ReLU(),
torch.nn.Linear(100, 50),
torch.nn.ReLU(),
torch.nn.Linear(50, output_size))
self.sos = torch.rand(num_biquads, 6, device=hardware, dtype=torch.float32, requires_grad=True)

def get_dirac(self, size, index=1, grad=False):
tensor = torch.zeros(size, requires_grad=grad)
tensor.data[index] = 1
return tensor

def compute_filter_magnitude_and_phase_frequency_response(self, dirac, fs, a, b):
# filter it
filtered_dirac = lfilter(dirac, a, b)
freqs_response = torch.fft.fft(filtered_dirac)

# compute the frequency axis (positive frequencies only)
freqs_rad = torch.fft.rfftfreq(filtered_dirac.shape[-1])

# keep only the positive freqs
freqs_hz = freqs_rad[:filtered_dirac.shape[-1] // 2] * fs / np.pi
freqs_response = freqs_response[:len(freqs_hz)]

# magnitude response
mag_response_db = 20 * torch.log10(torch.abs(freqs_response))

# Phase Response
phase_response_rad = torch.angle(freqs_response)
phase_response_deg = phase_response_rad * 180 / np.pi
return freqs_hz, mag_response_db, phase_response_deg

def forward(self, x):
self.sos = self.mlp(x)
return self.sos

# Define the target filter variables
fs = 2048 # 44100 # Sampling frequency
num_biquads = 1 # Number of biquad filters in the cascade
num_biquad_coeffs = 6 # Number of coefficients per biquad

# define filter coeffs
target_sos = torch.tensor([0.803, -0.132, 0.731, 1.000, -0.426, 0.850])
a = target_sos[3:]
b = target_sos[:3]

# prepare data
import scipy.signal as signal
f0 = 20
f1 = 20e3
t = np.linspace(0, 60, fs, dtype=np.float32)
sine_sweep = signal.chirp(t=t, f0=f0, t1=60, f1=f1, method='logarithmic')
white_noise = np.random.normal(scale=5e-2, size=len(t))
noisy_sweep = sine_sweep + white_noise
train_input = torch.from_numpy(noisy_sweep.astype(np.float32))
train_target = lfilter(train_input, a, b)

# Init the optimizer
n_epochs = 9
batche_size = 1
seq_length = 512
seq_step = 512
model = FilterNet(seq_length, 10*seq_length, 6, batche_size, num_biquads, 1, fs)
optimizer = Adam(model.parameters(), lr=1e-1, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)
scheduler = lr_scheduler.ReduceLROnPlateau(optimizer, 'min')
criterion = torch.nn.MSELoss()

# compute filter response
freqs_hz, mag_response_db, phase_response_deg = model.compute_filter_magnitude_and_phase_frequency_response(model.get_dirac(fs, 0, grad=False), fs, a, b)
target_frequency_response = torch.hstack((mag_response_db, phase_response_deg))

# Inits
start_time = time.time() # Start timing the loop
pbar = tqdm(total=n_epochs) # Create a tqdm progress bar
loss_history = []

# data batching
num_sequences = int(train_input.shape[0] / seq_length)

# Run training
for epoch in range(n_epochs):
model.train()
device = next(model.parameters()).device
print("\n+ Epoch : ", epoch)
total_loss = 0
for seq_id in range(num_sequences):
start_idx = seq_id*seq_step
end_idx = seq_id*seq_step + seq_length
# print(seq_id, start_idx, end_idx)

input_seq_batch = train_input[start_idx:end_idx].unsqueeze(0).to(device)
target_seq_batch = train_target[start_idx:end_idx].unsqueeze(0).to(device)
optimizer.zero_grad()

# Compute prediction and loss
sos = model(input_seq_batch)
y = lfilter(waveform=input_seq_batch, b_coeffs=sos[:, :3], a_coeffs=sos[:, 3:])
batch_loss = torch.nn.functional.mse_loss(y, target_seq_batch)

sos.requires_grad_(True)
y.requires_grad_(True)
batch_loss.requires_grad_(True)

print("|-> y : ", y.grad)
print("|-> sos : ", sos.grad)
print("|-> batch_loss (before backprop) : ", batch_loss.grad)

# Backpropagation

batch_loss.backward()
print("|-> batch_loss (after backprop) : ", batch_loss.grad)

optimizer.step()
total_loss += batch_loss.item()
print(f"|=========> Sequence {seq_id}: Loss = {batch_loss.item():.9f}")

# record loss
epoch_loss = total_loss / num_sequences
loss_history.append(epoch_loss)
print("-"* 100)
print(f"|=========> epoch_loss = {epoch_loss:.3f} | Loss = {epoch_loss:.3f}")

# Update the progress bar
#pbar.set_description(f"\nEpoch: {epoch}, Loss: {epoch_loss:.9f}\n")
#pbar.update(1)
scheduler.step(total_loss)
print("*"* 100)

# End timing the loop & print duration
elapsed_time = time.time() - start_time
print(f"\nOptimization loop took {elapsed_time:.2f} seconds.")

# Plot predicted filter
predicted_a = model.sos[:, 3:].detach().cpu().T.squeeze(1)
predicted_b = model.sos[:, :3].detach().cpu().T.squeeze(1)
freqs_hz, predicted_mag_response_db, predicted_phase_response_deg = model.compute_filter_magnitude_and_phase_frequency_response(model.get_dirac(fs, 0, grad=False), fs, predicted_a, predicted_b)

Вывод

+ Epoch : 0
|-> y : None
|-> sos : None
|-> batch_loss (before backprop) : None
|-> batch_loss (after backprop) : None
|=========> Sequence 0: Loss = 1.106894493
|-> y : None
|-> sos : None
|-> batch_loss (before backprop) : None
|-> batch_loss (after backprop) : None
|=========> Sequence 1: Loss = 1.414705992
|-> y : None
|-> sos : None
|-> batch_loss (before backprop) : None
|-> batch_loss (after backprop) : None
|=========> Sequence 2: Loss = nan
|-> y : None
|-> sos : None
|-> batch_loss (before backprop) : None
|-> batch_loss (after backprop) : None
|=========> Sequence 3: Loss = nan
----------------------------------------------------------------------------------------------------
|=========> epoch_loss = nan | Loss = nan
****************************************************************************************************

+ Epoch : 1
|-> y : None
|-> sos : None
|-> batch_loss (before backprop) : None
|-> batch_loss (after backprop) : None
|=========> Sequence 0: Loss = nan
|-> y : None
|-> sos : None
|-> batch_loss (before backprop) : None
|-> batch_loss (after backprop) : None
|=========> Sequence 1: Loss = nan
|-> y : None
|-> sos : None
|-> batch_loss (before backprop) : None

Подробнее здесь: https://stackoverflow.com/questions/786 ... being-none

Реклама

1719323646

Anonymous

Я пытаюсь предсказать/подобрать коэффициенты фильтра с помощью MLP, моя целевая функция:
[img]https://github.com/ pytorch/pytorch/assets/15731839/7b15cf05-86fc-43e7-bdd3-6e5543a42b42[/img]

Однако система застряла в тех же потерях (nan), и не происходит никакого обучения или обновления.
Когда я удаляю lfilter и использую пакетный_лосс = torch.nn.functional.mse_loss(y, target_seq_batch) для потери , алгоритм сходится.
Код
import time
import torch
import torchaudio
import numpy as np
from tqdm import tqdm
from torchaudio.functional import lfilter
from torch.optim import Adam, lr_scheduler

# Set the device
hardware = "cpu"
device = torch.device(hardware)

class FilterNet(torch.nn.Module):
def __init__(self, input_size, hidden_size, output_size, num_batches=1, num_biquads=1, num_layers=1, fs=44100):
super(FilterNet, self).__init__()
self.eps = 1e-8
self.fs = fs
self.dirac = self.get_dirac(fs, 0, grad=True)  # generate a dirac
self.mlp = torch.nn.Sequential(torch.nn.Linear(input_size, 100),
torch.nn.ReLU(),
torch.nn.Linear(100, 50),
torch.nn.ReLU(),
torch.nn.Linear(50, output_size))
self.sos = torch.rand(num_biquads, 6, device=hardware, dtype=torch.float32, requires_grad=True)

def get_dirac(self, size, index=1, grad=False):
tensor = torch.zeros(size, requires_grad=grad)
tensor.data[index] = 1
return tensor

def compute_filter_magnitude_and_phase_frequency_response(self, dirac, fs, a, b):
# filter it
filtered_dirac = lfilter(dirac, a, b)
freqs_response = torch.fft.fft(filtered_dirac)

# compute the frequency axis (positive frequencies only)
freqs_rad = torch.fft.rfftfreq(filtered_dirac.shape[-1])

# keep only the positive freqs
freqs_hz = freqs_rad[:filtered_dirac.shape[-1] // 2] * fs / np.pi
freqs_response = freqs_response[:len(freqs_hz)]

# magnitude response
mag_response_db = 20 * torch.log10(torch.abs(freqs_response))

# Phase Response
phase_response_rad = torch.angle(freqs_response)
phase_response_deg = phase_response_rad * 180 / np.pi
return freqs_hz, mag_response_db, phase_response_deg

def forward(self, x):
self.sos = self.mlp(x)
return self.sos

# Define the target filter variables
fs = 2048 # 44100             # Sampling frequency
num_biquads = 1        # Number of biquad filters in the cascade
num_biquad_coeffs = 6  # Number of coefficients per biquad

# define filter coeffs
target_sos = torch.tensor([0.803, -0.132, 0.731, 1.000, -0.426, 0.850])
a = target_sos[3:]
b = target_sos[:3]

# prepare data
import scipy.signal as signal
f0 = 20
f1 = 20e3
t = np.linspace(0, 60, fs, dtype=np.float32)
sine_sweep   = signal.chirp(t=t, f0=f0, t1=60, f1=f1, method='logarithmic')
white_noise  = np.random.normal(scale=5e-2, size=len(t))
noisy_sweep  = sine_sweep + white_noise
train_input  = torch.from_numpy(noisy_sweep.astype(np.float32))
train_target = lfilter(train_input, a, b)

# Init the optimizer
n_epochs    = 9
batche_size = 1
seq_length  = 512
seq_step    = 512
model     = FilterNet(seq_length, 10*seq_length, 6, batche_size, num_biquads, 1, fs)
optimizer = Adam(model.parameters(), lr=1e-1, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)
scheduler = lr_scheduler.ReduceLROnPlateau(optimizer, 'min')
criterion = torch.nn.MSELoss()

# compute filter response
freqs_hz, mag_response_db, phase_response_deg = model.compute_filter_magnitude_and_phase_frequency_response(model.get_dirac(fs, 0, grad=False), fs, a, b)
target_frequency_response = torch.hstack((mag_response_db, phase_response_deg))

# Inits
start_time = time.time()    # Start timing the loop
pbar = tqdm(total=n_epochs) # Create a tqdm progress bar
loss_history = []

# data batching
num_sequences = int(train_input.shape[0] / seq_length)

# Run training
for epoch in range(n_epochs):
model.train()
device = next(model.parameters()).device
print("\n+ Epoch :  ", epoch)
total_loss = 0
for seq_id in range(num_sequences):
start_idx = seq_id*seq_step
end_idx   = seq_id*seq_step + seq_length
# print(seq_id, start_idx, end_idx)

input_seq_batch  = train_input[start_idx:end_idx].unsqueeze(0).to(device)
target_seq_batch = train_target[start_idx:end_idx].unsqueeze(0).to(device)
optimizer.zero_grad()

# Compute prediction and loss
sos = model(input_seq_batch)
y = lfilter(waveform=input_seq_batch, b_coeffs=sos[:, :3], a_coeffs=sos[:, 3:])
batch_loss = torch.nn.functional.mse_loss(y, target_seq_batch)

sos.requires_grad_(True)
y.requires_grad_(True)
batch_loss.requires_grad_(True)

print("|-> y                            : ", y.grad)
print("|-> sos                          : ", sos.grad)
print("|-> batch_loss (before backprop) : ", batch_loss.grad)

# Backpropagation

batch_loss.backward()
print("|-> batch_loss (after backprop)  : ", batch_loss.grad)

optimizer.step()
total_loss += batch_loss.item()
print(f"|=========> Sequence {seq_id}: Loss = {batch_loss.item():.9f}")

# record loss
epoch_loss = total_loss / num_sequences
loss_history.append(epoch_loss)
print("-"* 100)
print(f"|=========> epoch_loss = {epoch_loss:.3f} | Loss = {epoch_loss:.3f}")

# Update the progress bar
#pbar.set_description(f"\nEpoch: {epoch}, Loss: {epoch_loss:.9f}\n")
#pbar.update(1)
scheduler.step(total_loss)
print("*"* 100)

# End timing the loop & print duration
elapsed_time = time.time() - start_time
print(f"\nOptimization loop took {elapsed_time:.2f} seconds.")

# Plot predicted filter
predicted_a = model.sos[:, 3:].detach().cpu().T.squeeze(1)
predicted_b = model.sos[:, :3].detach().cpu().T.squeeze(1)
freqs_hz, predicted_mag_response_db, predicted_phase_response_deg = model.compute_filter_magnitude_and_phase_frequency_response(model.get_dirac(fs, 0, grad=False), fs, predicted_a, predicted_b)

Вывод

+ Epoch :  0
|-> y                            :  None
|-> sos                          :  None
|-> batch_loss (before backprop) :  None
|-> batch_loss (after backprop)  :  None
|=========> Sequence 0: Loss = 1.106894493
|-> y                            :  None
|-> sos                          :  None
|-> batch_loss (before backprop) :  None
|-> batch_loss (after backprop)  :  None
|=========> Sequence 1: Loss = 1.414705992
|-> y                            :  None
|-> sos                          :  None
|-> batch_loss (before backprop) :  None
|-> batch_loss (after backprop)  :  None
|=========> Sequence 2: Loss = nan
|-> y                            :  None
|-> sos                          :  None
|-> batch_loss (before backprop) :  None
|-> batch_loss (after backprop)  :  None
|=========> Sequence 3: Loss = nan
----------------------------------------------------------------------------------------------------
|=========> epoch_loss = nan | Loss = nan
****************************************************************************************************

+ Epoch :  1
|-> y                            :  None
|-> sos                          :  None
|-> batch_loss (before backprop) :  None
|-> batch_loss (after backprop)  :  None
|=========> Sequence 0: Loss = nan
|-> y                            :  None
|-> sos                          :  None
|-> batch_loss (before backprop) :  None
|-> batch_loss (after backprop)  :  None
|=========> Sequence 1: Loss = nan
|-> y                            :  None
|-> sos                          :  None
|-> batch_loss (before backprop) :  None
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78667734/how-to-avoid-a-nan-loss-from-the-first-iteration-and-gradients-being-none[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проверьте наличие Нана в --ffast-math

Последнее сообщение Anonymous « 13 май 2024, 20:04
Добавлено в форуме C++

Anonymous » 13 май 2024, 20:04 » в форуме C++

Предположим (избегая ночных дискуссий о том, почему) я использую -ffast-math и моя программа выполняет десять итераций Ньютона. Они либо сходятся, либо к этому моменту произойдет NaN.
Это то, что я хочу проверить. Теперь чат GPT сообщил мне, что...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
13 май 2024, 20:04
Потеря нана в керасе при работе над моделью семантической сегментации для сегментации опухолей головного мозга, задача 2

Последнее сообщение Anonymous « 25 июн 2024, 11:16
Добавлено в форуме Python

Anonymous » 25 июн 2024, 11:16 » в форуме Python

Некоторый контекст:
На входе есть 4 изображения, и я объединил их в 4 канала, а на выходе — 1 изображение.
Входная форма (образец,240,240,4)
Выходная форма : (sample,240,240,1)
Потеря моей модели за 50 эпох — это Нэн, и точность тоже
код:...

0 Ответы

48 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 11:16
Нана-библиотека GNU мертва? Используется ли преемник?

Последнее сообщение Anonymous « 27 дек 2024, 21:12
Добавлено в форуме C++

Anonymous » 27 дек 2024, 21:12 » в форуме C++

Глядя на кажется, что последняя работа над Nana была проделана четыре года назад, а официальная домашняя страница gnu.org для nana является заполнителем. Учитывая, как неактивные проекты обычно страдают от битрота:

Проект умер?
Есть ли...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
27 дек 2024, 21:12
Мои потери при тестировании увеличиваются, но потери поездов для нейронной сети уменьшаются. Что я должен делать?

Последнее сообщение Anonymous « 11 май 2024, 02:35
Добавлено в форуме Python

Anonymous » 11 май 2024, 02:35 » в форуме Python

Моя нейронная сеть
def buildModel(optimizer):
model = tf.keras.models.Sequential( )
model.compile(loss='categorical_crossentropy', optimizer=optimizer, metrics= )
return model

tf.keras.optimizers.legacy.Adam()

model = buildModel('adam')
history =...

0 Ответы

103 Просмотры

Последнее сообщение Anonymous
11 май 2024, 02:35
Потери увеличиваются с самой первой эпохи.

Последнее сообщение Anonymous « 13 дек 2024, 23:37
Добавлено в форуме Python

Anonymous » 13 дек 2024, 23:37 » в форуме Python

Я обучаю свою сиамскую сеть работе с NLP. Я использовал здесь lstm. и до н.э.Потеря. Моя потеря увеличивается с первой эпохи. Первые 36 эпох потеря
error after 0 is
272.4357

error after 1 is
271.8972

error after 2 is
271.5598

error after 3...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
13 дек 2024, 23:37

Вернуться в «Python»

Programmiererforum