- Я использую Speech_recognition для перевода речи в текст
Затем текст отправляется в OpenAI API. - OpenAI возвращает ответ.
- Текст затем синтезируется в речь с помощью AWS Polly. или Azure Cognitive Speech
Однако в этом заключаются проблемы. Я сталкиваюсь:
- Когда я включаю прерывание голосового помощника. И я играю в это на Macbook Pro, он слышит свой голос и начинает реагировать на свой голос.
- Я использую такие методы, как обнаружение голосовой активности (VAD) или Speechbrain, чтобы различать между голосом голосового помощника и голосом пользователя, или анализом частоты звука, или сравнением на основе буфера, чтобы различать голос пользователя и голос помощника.... чтобы голосовой помощник не реагировал на свой собственный голос. Однако тут получается очень запутанная ситуация, когда Голосовой помощник говорит, становится очень сложно отличить свой голос от моего.
Поскольку я создаю это как прототип, я использование Streamlit в Python для части веб-приложения.
Сталкивался ли кто-нибудь с такой проблемой и как вы смогли ее решить? Заранее спасибо.
Подробнее здесь: https://stackoverflow.com/questions/792 ... -assistant