Как улучшить качество голоса пользовательских TTS

Как улучшить качество голоса пользовательских TTS ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как улучшить качество голоса пользовательских TTS

Цитата

Сообщение Anonymous » 09 фев 2025, 03:15

Я знаю, что мог бы использовать обученную пользовательской такотронской модели и лучшего ворота, но есть ли другие способы сделать голос более четким и лучшим качеством? < /p>
Вот код, который я сейчас работаю с: < /p>

Код: Выделить всё

import torch
import torchaudio
import IPython
import matplotlib.pyplot as plt
from IPython.display import display
import soundfile as sf
import os

class TextToSpeech:
def __init__(self):
torch.random.manual_seed(0)
self.device = "cuda" if torch.cuda.is_available() else "cpu"
self.bundle = torchaudio.pipelines.TACOTRON2_WAVERNN_PHONE_LJSPEECH
self.processor = self.bundle.get_text_processor()
self.tacotron2 = self.bundle.get_tacotron2().to(self.device)
self.vocoder = self.bundle.get_vocoder().to(self.device)

def text_to_speech(self, text, pitch=1.0):
with torch.inference_mode():
processed, lengths = self.processor(text)
processed = processed.to(self.device)
lengths = lengths.to(self.device)
spec, spec_lengths, _ = self.tacotron2.infer(processed, lengths)
waveforms, lengths = self.vocoder(spec, spec_lengths)
waveforms = self.adjust_pitch(waveforms, pitch)
return waveforms, spec, self.vocoder.sample_rate

def adjust_pitch(self, waveforms, pitch):
if pitch != 1.0:
waveforms = torchaudio.transforms.Resample(
orig_freq=self.vocoder.sample_rate,
new_freq=int(self.vocoder.sample_rate * pitch)
)(waveforms)
return waveforms

def plot_waveform_and_spectrogram(self, waveforms, spec, sample_rate):
waveforms = waveforms.cpu().detach()
fig, [ax1, ax2] = plt.subplots(2, 1)
ax1.plot(waveforms[0])
ax1.set_xlim(0, waveforms.size(-1))
ax1.grid(True)
ax2.imshow(spec[0].cpu().detach(), origin="lower", aspect="auto")
return IPython.display.Audio(waveforms[0:1], rate=sample_rate)

def save_waveform_to_file(self, waveforms, sample_rate, filename="output.wav"):
waveforms = waveforms.cpu().detach().numpy()
sf.write(filename, waveforms.T, sample_rate)
os.system(f'start {filename}')  # This will auto open the file in the default media player on Windows

# Example usage
if __name__ == "__main__":
tts = TextToSpeech()
text = "Hello world"
pitch = 0.85  # Adjust the pitch here, for whatever reason lower value increases pitch, 0.85 seems good
waveforms, spec, sample_rate = tts.text_to_speech(text, pitch)
audio = tts.plot_waveform_and_spectrogram(waveforms, spec, sample_rate)
display(audio)
tts.save_waveform_to_file(waveforms, sample_rate)

Я попытался изменить архитектуру кода, и этот, кажется, работает лучше

Подробнее здесь: https://stackoverflow.com/questions/794 ... custom-tts

1739060111

Anonymous

 Я знаю, что мог бы использовать обученную пользовательской такотронской модели и лучшего ворота, но есть ли другие способы сделать голос более четким и лучшим качеством? < /p>
Вот код, который я сейчас работаю с: < /p>
[code]import torch
import torchaudio
import IPython
import matplotlib.pyplot as plt
from IPython.display import display
import soundfile as sf
import os

class TextToSpeech:
def __init__(self):
torch.random.manual_seed(0)
self.device = "cuda" if torch.cuda.is_available() else "cpu"
self.bundle = torchaudio.pipelines.TACOTRON2_WAVERNN_PHONE_LJSPEECH
self.processor = self.bundle.get_text_processor()
self.tacotron2 = self.bundle.get_tacotron2().to(self.device)
self.vocoder = self.bundle.get_vocoder().to(self.device)

def text_to_speech(self, text, pitch=1.0):
with torch.inference_mode():
processed, lengths = self.processor(text)
processed = processed.to(self.device)
lengths = lengths.to(self.device)
spec, spec_lengths, _ = self.tacotron2.infer(processed, lengths)
waveforms, lengths = self.vocoder(spec, spec_lengths)
waveforms = self.adjust_pitch(waveforms, pitch)
return waveforms, spec, self.vocoder.sample_rate

def adjust_pitch(self, waveforms, pitch):
if pitch != 1.0:
waveforms = torchaudio.transforms.Resample(
orig_freq=self.vocoder.sample_rate,
new_freq=int(self.vocoder.sample_rate * pitch)
)(waveforms)
return waveforms

def plot_waveform_and_spectrogram(self, waveforms, spec, sample_rate):
waveforms = waveforms.cpu().detach()
fig, [ax1, ax2] = plt.subplots(2, 1)
ax1.plot(waveforms[0])
ax1.set_xlim(0, waveforms.size(-1))
ax1.grid(True)
ax2.imshow(spec[0].cpu().detach(), origin="lower", aspect="auto")
return IPython.display.Audio(waveforms[0:1], rate=sample_rate)

def save_waveform_to_file(self, waveforms, sample_rate, filename="output.wav"):
waveforms = waveforms.cpu().detach().numpy()
sf.write(filename, waveforms.T, sample_rate)
os.system(f'start {filename}')  # This will auto open the file in the default media player on Windows

# Example usage
if __name__ == "__main__":
tts = TextToSpeech()
text = "Hello world"
pitch = 0.85  # Adjust the pitch here, for whatever reason lower value increases pitch, 0.85 seems good
waveforms, spec, sample_rate = tts.text_to_speech(text, pitch)
audio = tts.plot_waveform_and_spectrogram(waveforms, spec, sample_rate)
display(audio)
tts.save_waveform_to_file(waveforms, sample_rate)

[/code]
Я попытался изменить архитектуру кода, и этот, кажется, работает лучше 
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79424117/how-to-improve-voice-quality-of-custom-tts[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Клонирование голоса TTS

Последнее сообщение Anonymous « 10 окт 2024, 11:24
Добавлено в форуме Python

Anonymous » 10 окт 2024, 11:24 » в форуме Python

Я использовал репозиторий с открытым исходным кодом Coqui для создания модели голосового клона. Он использует различные модели tts_models, обученные с использованием наборов данных LJSpeech. Я использовал многоязычную модель для использования...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
10 окт 2024, 11:24
У меня есть текстовый файл. Я создаю wav-файл закадрового голоса, используя TTS. Как я могу создать для него субтитры?

Последнее сообщение Anonymous « 25 окт 2024, 00:11
Добавлено в форуме Python

Anonymous » 25 окт 2024, 00:11 » в форуме Python

У меня есть текстовый файл. Я создаю wav-файл закадрового голоса, используя TTS. Как я могу создать для него субтитры?
Я использую Azure и/или Coqui-AI TTS в зависимости от случая.
В настоящее время я генерирую субтитры, используя автономную модель...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
25 окт 2024, 00:11
Как добавить свои собственные голоса TTS для Pyttsx3 Python

Последнее сообщение Anonymous « 21 авг 2025, 04:09
Добавлено в форуме Python

Anonymous » 21 авг 2025, 04:09 » в форуме Python

Итак, я сделал личного голосового помощника в Python, и в настоящее время он говорит с Microsoft David. В Microsoft есть несколько предварительно построенных голосов, и вы можете добавить еще немного из настройки и настройки речи, но не от ваших...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
21 авг 2025, 04:09
Не могу сгенерировать речь из библиотеки tts coqui-tts, и эта ошибка возникает при использовании одного и нескольких дин

Последнее сообщение Anonymous « 27 сен 2024, 15:00
Добавлено в форуме Python

Anonymous » 27 сен 2024, 15:00 » в форуме Python

from TTS.utils.manage import ModelManager
from TTS.utils.synthesizer import Synthesizer

from google.colab import files

Initialize the model manager and load the models

model_name = tts_models/en/ljspeech/tacotron2-DDC

vocoder_name =...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 15:00
Не могу сгенерировать речь из библиотеки tts coqui-tts, и эта ошибка возникает при использовании одного и нескольких дин

Последнее сообщение Anonymous « 27 сен 2024, 16:16
Добавлено в форуме Python

Anonymous » 27 сен 2024, 16:16 » в форуме Python

from TTS.utils.manage import ModelManager
from TTS.utils.synthesizer import Synthesizer

from google.colab import files

Initialize the model manager and load the models

model_name = tts_models/en/ljspeech/tacotron2-DDC

vocoder_name =...

0 Ответы

45 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 16:16

Вернуться в «Python»