Я работаю над клонированием голоса с использованием Coqui TTS (VITS) и столкнулся с проблемой ухудшения качества голоса после изменения набора данных и конфигурации обучения. Буду признателен за рекомендации сообщества.
Набор данных и обучение –>
- Общая продолжительность аудио: ~4,5 часа
- Всего WAV-файлов: 3200 (по 5 секунд каждый)
- Всего слов: 51 126
- Уникальных слов: 4877
- Динамик: один динамик (один и тот же голос во всех файлах)
- Графический процессор: RTX 3090
- Размер пакета: 8
- Эпох: 1200
Затем я решил расширить набор данных и возобновить обучение, чтобы исправить проблемы с произношением, я добавил больше словарного запаса.
- Добавлены новые данные: ~1927 дополнительных слов.
Я возобновил обучение с объединенным набором данных.
Результат примерно через 4 часа: проблемы с произношением были устранены, но качество голоса ухудшилось и стало детским/высоким
затем я сократил набор данных и изменил конфигурацию
Чтобы сбалансировать набор данных->
- Удалено ~ 80% исходных данных
- Сохранено ~20%, в основном новые образцы.
- Размер пакета: увеличен с 8 → 64.
- Общее количество эпох: увеличено до 2200.
Мои вопросы Является ли детский голос причиной дисбаланса набора данных после удаления большинства оригинальных сэмплов? Каков рекомендуемый подход к расширению словарного запаса без потери индивидуальности говорящего?
Подробнее здесь: https://stackoverflow.com/questions/798 ... ig-changes
Мобильная версия