Проблема: ухудшение качества голоса (детский тон) после изменений набора данных и конфигурации в клонировании голоса Coq

Проблема: ухудшение качества голоса (детский тон) после изменений набора данных и конфигурации в клонировании голоса Coq ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема: ухудшение качества голоса (детский тон) после изменений набора данных и конфигурации в клонировании голоса Coq

Цитата

Сообщение Anonymous » 16 янв 2026, 12:33

Проблема: ухудшение качества голоса после изменения набора данных и конфигурации при клонировании голоса coqui VITS
Я работаю над клонированием голоса с использованием Coqui TTS (VITS) и столкнулся с проблемой ухудшения качества голоса после изменения набора данных и конфигурации обучения. Буду признателен за рекомендации сообщества.
Набор данных и обучение –>

Общая продолжительность аудио: ~4,5 часа
Всего WAV-файлов: 3200 (по 5 секунд каждый)
Всего слов: 51 126
Уникальных слов: 4877
Динамик: один динамик (один и тот же голос во всех файлах)

Настройки обучения:

Графический процессор: RTX 3090
Размер пакета: 8
Эпох: 1200

После ~680 эпох (~2,5 дня), я оценил модель, и голосовая идентификация была успешно клонирована, но некоторые слова были произнесены неправильно.
Затем я решил расширить набор данных и возобновить обучение, чтобы исправить проблемы с произношением, я добавил больше словарного запаса.

Добавлены новые данные: ~1927 дополнительных слов.

Условия динамика и записи: тот же голос, аналогичная длина звука и качество
Я возобновил обучение с объединенным набором данных.
Результат примерно через 4 часа: проблемы с произношением были устранены, но качество голоса ухудшилось и стало детским/высоким
затем я сократил набор данных и изменил конфигурацию
Чтобы сбалансировать набор данных->

Удалено ~ 80% исходных данных
Сохранено ~20%, в основном новые образцы.

Обновлена конфигурация обучения:

Размер пакета: увеличен с 8 → 64.
Общее количество эпох: увеличено до 2200.

Я возобновил обучение снова и через ~1600 эпох (~16). часов) голос по-прежнему детский, а исходный тон динамика не восстановлен.
Мои вопросы Является ли детский голос причиной дисбаланса набора данных после удаления большинства оригинальных сэмплов? Каков рекомендуемый подход к расширению словарного запаса без потери индивидуальности говорящего?

Подробнее здесь: https://stackoverflow.com/questions/798 ... ig-changes

1768556019

Anonymous

[b]Проблема: ухудшение качества голоса после изменения набора данных и конфигурации при клонировании голоса coqui VITS[/b]
Я работаю над клонированием голоса с использованием Coqui TTS (VITS) и столкнулся с проблемой ухудшения качества голоса после изменения набора данных и конфигурации обучения. Буду признателен за рекомендации сообщества.
Набор данных и обучение –>
[list]
[*]Общая продолжительность аудио: ~4,5 часа
[*]Всего WAV-файлов: 3200 (по 5 секунд каждый)
[*]Всего слов: 51 126
[*]Уникальных слов: 4877
[*]Динамик: один динамик (один и тот же голос во всех файлах)
[/list]
Настройки обучения:
[list]
[*]Графический процессор: RTX 3090
[*]Размер пакета: 8
[*]Эпох: 1200
[/list]
После ~680 эпох (~2,5 дня), я оценил модель, и голосовая идентификация была успешно клонирована, но некоторые слова были произнесены неправильно.
Затем я решил расширить набор данных и возобновить обучение, чтобы исправить проблемы с произношением, я добавил больше словарного запаса.
[list]
[*]Добавлены новые данные: ~1927 дополнительных слов.
[/list]
Условия динамика и записи: тот же голос, аналогичная длина звука и качество
Я возобновил обучение с объединенным набором данных.
Результат примерно через 4 часа: проблемы с произношением были устранены, но качество голоса ухудшилось и стало детским/высоким
затем я сократил набор данных и изменил конфигурацию
Чтобы сбалансировать набор данных->
[list]
[*]Удалено ~ 80% исходных данных
[*]Сохранено ~20%, в основном новые образцы.
[/list]
Обновлена конфигурация обучения:
[list]
[*]Размер пакета: увеличен с 8 → 64.
[*]Общее количество эпох: увеличено до 2200.
[/list]
Я возобновил обучение снова и через ~1600 эпох (~16). часов) голос по-прежнему детский, а исходный тон динамика не восстановлен.
Мои вопросы Является ли детский голос причиной дисбаланса набора данных после удаления большинства оригинальных сэмплов? Каков рекомендуемый подход к расширению словарного запаса без потери индивидуальности говорящего? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79869177/issue-voice-quality-degradation-childish-tone-after-dataset-config-changes[/url]