Привет, я пытаюсь создать агент AI Voice, используя только инструменты с открытым исходным кодом. Я планирую использовать Kokoro TTS для TTS и этот код вместо LLM, но я не уверен насчет STT и других вещей, которые могут понадобиться? Дайте мне знать, стоит ли мне продолжать это или нет. Я думал об использовании Wav2Vec2, но не знаю, будет ли он достаточно быстрым или нет для Ryzen 5 5600G с 16 ГБ оперативной памяти без графической карты для звонков в службу поддержки клиентов. Для TTS я буду использовать OCR, чтобы заранее извлечь имя пациента и другую изменяемую информацию и преобразовать ее в аудио, но не уверен насчет части SST.
Ссылка на репозиторий кода Github — https://github.com/hey12301/replaceHuma ... process.py
Подробнее здесь: https://stackoverflow.com/questions/798 ... urce-tools
Мобильная версия