Мои ограничения:
- Полностью открытый исходный код (без платных API)
- Высокая точность для STT
- Естественный, стабильный TTS (поддержка длинного текста)
- Автономное размещение (GPU или CPU)
- Рабочий процесс на основе Python
- Некоммерческое использование допускается
- STT: Whisper, Faster-Whisper, шепот.cpp, Vosk, Kaldi
- TTS: Tacotron, VITS, Piper, модели на основе диффузии/потока, такие как F5-TTS
- Точностью
- Производительностью
- Стабильностью
- Простотой использования
- Ограничения лицензирования
Если возможно, я также был бы признателен за понимание реальных компромиссов (задержка, использование ресурсов, проблемы с длинным текстом).
Я не ищу облачные сервисы или платные API.
Подробнее здесь: https://stackoverflow.com/questions/798 ... h-accuracy
Мобильная версия