Трансформатор кодер-декодер хорошая производительность обучения, плохая производительность авторегрессии

Трансформатор кодер-декодер хорошая производительность обучения, плохая производительность авторегрессии ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Трансформатор кодер-декодер хорошая производительность обучения, плохая производительность авторегрессии

Цитата

Сообщение Anonymous » 22 июн 2024, 00:55

Я работаю над полной моделью преобразователя кодер-декодер для синтеза речи из сигналов ЭЭГ. В частности, для окна ЭЭГ-активности длиной x=100 я прогнозирую окно длиной x=100 мел-спектрограмм. ЭЭГ и мел-спектрограммы выровнены по времени, с общими размерами набора данных (43265, 107) для ЭЭГ и (43264, 80) для мел-спектрограмм.
Я разделил набор данных на обучающий и тестовый наборы в соотношении 80/20. В результате получается 6902 обучающих последовательностей, каждая из которых имеет размеры (100, 107) для ЭЭГ и (100, 80) для мел-спектрограмм.
Архитектура моей модели включает в себя:

Два пренета (один для кодера и один для декодера) для извлечения признаков из ЭЭГ и мел-спектрограмм, проецируя их во вложения. .
Постнет для уточнения предсказанных мел-спектрограмм.

Обзор модели
Проблема, с которой я столкнулся, заключается в том, что, хотя потери при обучении уменьшаются, модель работает плохо во время вывода. Прогнозы на проверочном наборе очень плохие, а модель также неэффективна на обучающем наборе во время вывода.
Во время вывода я прогнозирую данные следующим образом:

Код: Выделить всё

eeg_val = eeg_val.to(device)
mel_val = mel_val.to(device)

mel_input = torch.zeros([modelArgs.batch_size, 1, 80]).to(device)
pos_eeg = torch.arange(1, eeg_context_length + 1).repeat(modelArgs.batch_size, 1).to(device)

pbar = tqdm(range(config["TR"]["context_length"]), desc=f"Validating...", position=0, leave=False)
with torch.no_grad():
for _ in pbar:
pos_mel = torch.arange(1, mel_input.size(1)+1).repeat(modelArgs.batch_size, 1).to(device)
mel_out, postnet_pred, attn, _, attn_dec = model.forward(eeg_val, mel_input, pos_eeg, pos_mel)
mel_input = torch.cat([mel_input, mel_out[:,-1:,:]], dim=1)

batch_loss = criterion(postnet_pred, mel_val)

где:

Код: Выделить всё
```
config["TR"]["context_length"]
```
— длина окна, т. е. 100.
Код: Выделить всё
```
pos_eeg
```
и pos_mel используются для создания масок внимания
Код: Выделить всё
```
mel_out
```
— выходные данные декодера, postnet_pred — выходные данные postnet

Обучение история
Потери рассчитываются с помощью nn.L1Loss() на выходе декодера и выходе постсети: пакет_лосс = mel_loss + post_mel_loss
Некоторые прогнозы, которые делает модель:
Прогноз модели 1
Прогноз модели 2
Моя модель основана на нейронном синтезе речи с трансформаторной сетью, и я использую следующую реализацию:
Единственное различие между моей настройкой и text2Speech заключается в следующем:

[*]Я использую ЭЭГ вместо текста
[*]У меня нет стоп-токена, поскольку Я прогнозирую для фиксированного временного окна.
[*]Я создаю позиционные внедрения, используя следующий класс вместо модуля nn.Embeddings:

Код: Выделить всё

class PositionalEncoding(nn.Module):
def __init__(self, d_model, dropout=0.1, max_len=200):
super(PositionalEncoding, self).__init__()

self.dropout = nn.Dropout(p=dropout)
self.alpha = nn.Parameter(t.ones(1))
pe = t.zeros(max_len, d_model)
position = t.arange(0, max_len, dtype=t.float).unsqueeze(1)
div_term = t.exp(t.arange(0, d_model, 2).float() * (-np.log(10000.0) / d_model))
pe[:, 0::2] = t.sin(position * div_term)
pe[:, 1::2] = t.cos(position * div_term)
self.register_buffer('pe', pe)

def forward(self, x):
pos = self.pe[:x.shape[1]]
pos = t.stack([pos]*x.shape[0], 0) # [bs x seq_len(x) x n_pos]
x = pos * self.alpha + x
return self.dropout(x)

Я также использую планировщик обучения NoamOpt из этого руководства: https://nlp.seas.harvard.edu/2018/04/03/attention.html
Вопрос: Что меня больше всего удивляет, так это то, что, несмотря на резко растущие потери и очень хорошие показатели корреляции (между предсказанием и истинной информацией) во время обучения, сеть работает очень плохо на одних и тех же обучающих последовательностях во время вывод -> В чем может быть причина плохой авторегрессионной производительности модели?
Я пробовал разные варианты архитектуры и сдвигал входные данные декодера вправо (как это сделано в оригинальной статье для трансформатора). Изменения в архитектуре на самом деле не привели к улучшению прогнозов, но смещение входов декодера на единицу немного улучшило прогнозы (с корреляции примерно с 0% до менее 20%).
Есть идеи или предложения?

Подробнее здесь: https://stackoverflow.com/questions/786 ... sive-perfo

1719006937

Anonymous

Я работаю над полной моделью преобразователя кодер-декодер для синтеза речи из сигналов ЭЭГ. В частности, для окна ЭЭГ-активности длиной x=100 я прогнозирую окно длиной x=100 мел-спектрограмм. ЭЭГ и мел-спектрограммы выровнены по времени, с общими размерами набора данных (43265, 107) для ЭЭГ и (43264, 80) для мел-спектрограмм.
Я разделил набор данных на обучающий и тестовый наборы в соотношении 80/20. В результате получается 6902 обучающих последовательностей, каждая из которых имеет размеры (100, 107) для ЭЭГ и (100, 80) для мел-спектрограмм.
Архитектура моей модели включает в себя:
[list]
[*]Два пренета (один для кодера и один для декодера) для извлечения признаков из ЭЭГ и мел-спектрограмм, проецируя их во вложения. .
[*]Постнет для уточнения предсказанных мел-спектрограмм.
[/list]
Обзор модели
Проблема, с которой я столкнулся, заключается в том, что, хотя потери при обучении уменьшаются, модель работает плохо во время вывода. Прогнозы на проверочном наборе очень плохие, а модель также неэффективна на обучающем наборе во время вывода.
Во время вывода я прогнозирую данные следующим образом:
[code]eeg_val = eeg_val.to(device)
mel_val = mel_val.to(device)

mel_input = torch.zeros([modelArgs.batch_size, 1, 80]).to(device)
pos_eeg = torch.arange(1, eeg_context_length + 1).repeat(modelArgs.batch_size, 1).to(device)

pbar = tqdm(range(config["TR"]["context_length"]), desc=f"Validating...", position=0, leave=False)
with torch.no_grad():
for _ in pbar:
pos_mel = torch.arange(1, mel_input.size(1)+1).repeat(modelArgs.batch_size, 1).to(device)
mel_out, postnet_pred, attn, _, attn_dec = model.forward(eeg_val, mel_input, pos_eeg, pos_mel)
mel_input = torch.cat([mel_input, mel_out[:,-1:,:]], dim=1)

batch_loss = criterion(postnet_pred, mel_val)
[/code]
где:
[list]
[*][code]config["TR"]["context_length"][/code] — длина окна, т. е. 100.

[*][code]pos_eeg[/code] и pos_mel используются для создания масок внимания

[*][code]mel_out[/code] — выходные данные декодера, postnet_pred — выходные данные postnet

[/list]
Обучение история
Потери рассчитываются с помощью nn.L1Loss() на выходе декодера и выходе постсети: пакет_лосс = mel_loss + post_mel_loss
Некоторые прогнозы, которые делает модель:
Прогноз модели 1
Прогноз модели 2
Моя модель основана на нейронном синтезе речи с трансформаторной сетью, и я использую следующую реализацию:
Единственное различие между моей настройкой и text2Speech заключается в следующем:

[*]Я использую ЭЭГ вместо текста
[*]У меня нет стоп-токена, поскольку Я прогнозирую для фиксированного временного окна.
[*]Я создаю позиционные внедрения, используя следующий класс вместо модуля nn.Embeddings:

[code]class PositionalEncoding(nn.Module):
def __init__(self, d_model, dropout=0.1, max_len=200):
super(PositionalEncoding, self).__init__()

self.dropout = nn.Dropout(p=dropout)
self.alpha = nn.Parameter(t.ones(1))
pe = t.zeros(max_len, d_model)
position = t.arange(0, max_len, dtype=t.float).unsqueeze(1)
div_term = t.exp(t.arange(0, d_model, 2).float() * (-np.log(10000.0) / d_model))
pe[:, 0::2] = t.sin(position * div_term)
pe[:, 1::2] = t.cos(position * div_term)
self.register_buffer('pe', pe)

def forward(self, x):
pos = self.pe[:x.shape[1]]
pos = t.stack([pos]*x.shape[0], 0) # [bs x seq_len(x) x n_pos]
x = pos * self.alpha + x
return self.dropout(x)
[/code]
Я также использую планировщик обучения NoamOpt из этого руководства: https://nlp.seas.harvard.edu/2018/04/03/attention.html
[b]Вопрос:[/b] Что меня больше всего удивляет, так это то, что, несмотря на резко растущие потери и очень хорошие показатели корреляции (между предсказанием и истинной информацией) во время обучения, сеть работает очень плохо на одних и тех же обучающих последовательностях во время вывод -> [b]В чем может быть причина плохой авторегрессионной производительности модели?[/b]
Я пробовал разные варианты архитектуры и сдвигал входные данные декодера вправо (как это сделано в оригинальной статье для трансформатора). Изменения в архитектуре на самом деле не привели к улучшению прогнозов, но смещение входов декодера на единицу немного улучшило прогнозы (с корреляции примерно с 0% до менее 20%).
Есть идеи или предложения? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78648505/encoder-decoder-transformer-good-training-performance-poor-autoregressive-perfo[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Файл в кодер/декодер Base64

Последнее сообщение Гость « 12 мар 2024, 13:19
Добавлено в форуме JAVA

Гость » 12 мар 2024, 13:19 » в форуме JAVA

Я пытаюсь создать конвертер файлов, который преобразует любой файл в строку Base64, которая сохраняется в файл .txt. Чтобы избежать слишком большого использования памяти при декодировании/кодировании, я использую буфер, который читает файл...

0 Ответы

64 Просмотры

Последнее сообщение Гость
12 мар 2024, 13:19
Почему Java-кодер и декодер не работают правильно

Последнее сообщение Anonymous « 16 сен 2024, 15:10
Добавлено в форуме JAVA

Anonymous » 16 сен 2024, 15:10 » в форуме JAVA

Как правильно кодировать строки в Java? Пытаюсь закодировать букву Ü в utf-8 и получаю фигню - d093d19a вместо C39C. В чем может быть проблема?
package org.example;

import java.io.*;
import java.nio.charset.StandardCharsets;
import...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 15:10
Создайте будущий фрейм данных с помощью NeuralProphet при использовании авторегрессии

Последнее сообщение Anonymous « 16 окт 2024, 21:30
Добавлено в форуме Python

Anonymous » 16 окт 2024, 21:30 » в форуме Python

Я попробовал добавить будущую славу данных, используя
future = m.make_future_dataframe(df, periods= 720, n_historic_predictions=True)

Однако в кадр данных добавляется только 1 строка вместо 720 строк.
Код модели:
m = NeuralProphet(...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
16 окт 2024, 21:30
Это хорошая/плохая практика использовать статический метод в классе, который помечен аннотацией @comComponent. В чем нед

Последнее сообщение Anonymous « 27 сен 2024, 11:56
Добавлено в форуме JAVA

Anonymous » 27 сен 2024, 11:56 » в форуме JAVA

Хороша/плохая практика использовать статический метод в классе, который помечен аннотацией @comComponent в Spring Framework? В чем преимущество/недостаток его использования?
Я столкнулся с ошибкой JVM OutOfMemory в производственной среде....

0 Ответы

44 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 11:56
Это хорошая/плохая практика использовать статический метод в классе, который помечен аннотацией @comComponent. В чем нед

Последнее сообщение Anonymous « 27 сен 2024, 14:57
Добавлено в форуме JAVA

Anonymous » 27 сен 2024, 14:57 » в форуме JAVA

Хороша/плохая практика использовать статический метод в классе, который помечен аннотацией @comComponent в Spring Framework? В чем преимущество/недостаток его использования?
Я столкнулся с ошибкой JVM OutOfMemory в производственной среде....

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 14:57

Вернуться в «Python»