Задача: создать прерываемый голосовой помощник с искусственным интеллектом

Задача: создать прерываемый голосовой помощник с искусственным интеллектом ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Задача: создать прерываемый голосовой помощник с искусственным интеллектом

Цитата

Сообщение Anonymous » 16 дек 2024, 00:49

В настоящее время я создаю AI Voice Assistant на Python, решение довольно простое.

Я использую Speech_recognition для перевода речи в текст
Затем текст отправляется в OpenAI API.
OpenAI возвращает ответ.
Текст затем синтезируется в речь с помощью AWS Polly. или Azure Cognitive Speech

Проблема, с которой я столкнулся, заключается в том, что я хочу, чтобы работу этого голосового помощника можно было прерывать. Например, когда помощник говорит, а пользователь говорит поверх него, помощник должен иметь возможность услышать новый ввод, прекратить говорить и ответить на новый ввод.
Однако в этом заключаются проблемы. Я сталкиваюсь:

Когда я включаю прерывание голосового помощника. И я играю в это на Macbook Pro, он слышит свой голос и начинает реагировать на свой голос.
Я использую такие методы, как обнаружение голосовой активности (VAD) или Speechbrain, чтобы различать между голосом голосового помощника и голосом пользователя, или анализом частоты звука, или сравнением на основе буфера, чтобы различать голос пользователя и голос помощника.... чтобы голосовой помощник не реагировал на свой собственный голос. Однако тут получается очень запутанная ситуация, когда Голосовой помощник говорит, становится очень сложно отличить свой голос от моего.

Суть Решение заключается в том, что оно доступно через браузер, так что пользователь может взаимодействовать с голосовым помощником через браузер мобильного устройства или настольного компьютера.
Поскольку я создаю это как прототип, я использование Streamlit в Python для части веб-приложения.
Сталкивался ли кто-нибудь с такой проблемой и как вы смогли ее решить? Заранее спасибо.

Подробнее здесь: https://stackoverflow.com/questions/792 ... -assistant

1734299397

Anonymous

В настоящее время я создаю AI Voice Assistant на Python, решение довольно простое.
[list]
[*]Я использую Speech_recognition для перевода речи в текст
Затем текст отправляется в OpenAI API.
[*]OpenAI возвращает ответ.
[*]Текст затем синтезируется в речь с помощью AWS Polly. или Azure Cognitive Speech
[/list]
Проблема, с которой я столкнулся, заключается в том, что я хочу, чтобы работу этого голосового помощника можно было прерывать. Например, когда помощник говорит, а пользователь говорит поверх него, помощник должен иметь возможность услышать новый ввод, прекратить говорить и ответить на новый ввод.
Однако в этом заключаются проблемы. Я сталкиваюсь:
[list]
[*]Когда я включаю прерывание голосового помощника. И я играю в это на Macbook Pro, он слышит свой голос и начинает реагировать на свой голос.
[*]Я использую такие методы, как обнаружение голосовой активности (VAD) или Speechbrain, чтобы различать между голосом голосового помощника и голосом пользователя, или анализом частоты звука, или сравнением на основе буфера, чтобы различать голос пользователя и голос помощника.... чтобы голосовой помощник не реагировал на свой собственный голос. Однако тут получается очень запутанная ситуация, когда Голосовой помощник говорит, становится очень сложно отличить свой голос от моего.
[/list]
Суть Решение заключается в том, что оно доступно через браузер, так что пользователь может взаимодействовать с голосовым помощником через браузер мобильного устройства или настольного компьютера.
Поскольку я создаю это как прототип, я использование Streamlit в Python для части веб-приложения.
Сталкивался ли кто-нибудь с такой проблемой и как вы смогли ее решить? Заранее спасибо.

Подробнее здесь: [url]https://stackoverflow.com/questions/79283230/challenge-building-interruptible-ai-voice-assistant[/url]