Проблема: ухудшение качества голоса (детский тон) после изменений набора данных и конфигурации в клонировании голоса CoqPython

Программы на Python
Ответить
Anonymous
 Проблема: ухудшение качества голоса (детский тон) после изменений набора данных и конфигурации в клонировании голоса Coq

Сообщение Anonymous »

Проблема: ухудшение качества голоса после изменения набора данных и конфигурации при клонировании голоса coqui VITS
Я работаю над клонированием голоса с использованием Coqui TTS (VITS) и столкнулся с проблемой ухудшения качества голоса после изменения набора данных и конфигурации обучения. Буду признателен за рекомендации сообщества.
Набор данных и обучение –>
  • Общая продолжительность аудио: ~4,5 часа
  • Всего WAV-файлов: 3200 (по 5 секунд каждый)
  • Всего слов: 51 126
  • Уникальных слов: 4877
  • Динамик: один динамик (один и тот же голос во всех файлах)
Настройки обучения:
  • Графический процессор: RTX 3090
  • Размер пакета: 8
  • Эпох: 1200
После ~680 эпох (~2,5 дня), я оценил модель, и голосовая идентичность была успешно клонирована, но некоторые слова были произнесены неправильно.
Затем я решил расширить набор данных и возобновить обучение, чтобы исправить проблемы с произношением, я добавил больше словарного запаса.
  • Добавлены новые данные: ~1927 дополнительных слов.
Условия динамика и записи: тот же голос, аналогичная длина звука и качество
Я возобновил обучение с объединенным набором данных.
Результат примерно через 4 часа: проблемы с произношением были устранены, но качество голоса ухудшилось и стало детским/высоким
Затем я уменьшил набор данных и изменил конфигурацию
Чтобы сбалансировать набор данных->
  • Удалено ~ 80% исходных данных
  • Сохранено ~20%, в основном новые образцы.
Обновлена конфигурация обучения:
  • Размер пакета: увеличен с 8 → 64.
  • Общее количество эпох: увеличено до 2200.
Я возобновил обучение снова и через ~1600 эпох (~16). часов) голос все еще детский, а исходный тон динамика не восстановлен.
Мои вопросы:
  • Вызван ли детский голос дисбалансом набора данных после удаления большинства исходных образцов?
  • Каков рекомендуемый подход к добавлению словарного запаса без потери личности говорящего?


Подробнее здесь: https://stackoverflow.com/questions/798 ... ig-changes
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»