Twilio Media Streams + ElevenLabs + Openai (Python): Call Connects, транскрипты работают, но вызывающий звонок слышит мо

Twilio Media Streams + ElevenLabs + Openai (Python): Call Connects, транскрипты работают, но вызывающий звонок слышит мо ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Twilio Media Streams + ElevenLabs + Openai (Python): Call Connects, транскрипты работают, но вызывающий звонок слышит мо

Цитата

Сообщение Anonymous » 13 июл 2025, 19:35

Я построил голосового помощника в реальном времени, используя Twilio Media Streams, Openai GPT и ElevenLabs, с аудио, обрабатываемым на Python с использованием Quart + Hypercorn. Приложение подключает, транскрибирует голоса из LL, генерирует ответ и передает его обратно через WebSocket - но мы ничего не слышим, когда мы призываем себя проверить его. Zero audio.
What I'm Trying to Do:
Enable two-way voice calls where:

The caller speaks → Whisper transcribes
GPT-4 replies → ElevenLabs generates audio
The response is streamed back to the caller using Media Stream Twilio

Я хочу естественный разговор, живой разговор между клиентом и регистратором AI. /> [*] Whisper Точная транскрибирует речь вызывающего абонента < /li>
GPT генерирует правильный ответ < /li>
ElevenLabs возвращает действительный файл mp3 < /li>
ffmpeg преобразует это в mp3-law @8000hz. Кадры над WebSocket (20 мс µ-законовыми кусочками) < /li>
Журналы подтверждают, что аудио-поток отправляется в рамках за кадром < /li>
Call Stay Snape (с паузой), журналы статуса Fire < /li>
Whisper Proves Proves Proves Searuio не слышит Audio < /li>
но. Нет приветствия. Нет ответа. Просто Единая молчание. < /Li>
< /ul>
Что я попробовал (обширная история отладки) 

подтвержденное преобразование µ -raw с помощью: 
ffmpeg -y -i file.mp3 -f mulaw -Acodec -AC -AC -AC 1000 -AC -AC -IAC. file.raw 
< /li>
использовал 160-байтовые куски в течение 20 мс @ 8 кГц 
< /li>
Инъективное 1 полное секунду из тишины µ-lak, чтобы запустить буфер 
< /li>

< /li>
Используется правильный трек: «inbound» для аудиокадров 
< /li>
Установите тип контента в качестве аудио /mulaw внутри:
twiml, используемый для исходящего потока медиа: 

<Start>
<Stream url="wss://chat.example.net/media" track="both_tracks">
<Parameter name="Content-Type" value="audio/mulaw" />
</Stream>
</Start>

< /code>
< /li>
проверил, что .mp3 и .raw Audio Sound Perfect, когда воспроизводится локально 
< /li>
Пробовал запись TWIML, чтобы прослушать, что вызывающий может услышать (все еще молчит) 
< /li> Соответствующий Python (потоковой аудио до Twilio): 
async def stream_audio(ws, stream_sid: str, audio_path: str):
raw_path = audio_path.rsplit('.', 1)[0] + ".raw"
subprocess.run([
"ffmpeg", "-y", "-i", audio_path,
"-f", "mulaw", "-acodec", "pcm_mulaw",
"-ar", "8000", "-ac", "1", raw_path
])
with open(raw_path, "rb") as f:
while chunk := f.read(160):
msg = {
"event": "media",
"streamSid": stream_sid,
"media": {
"track": "inbound",
"payload": base64.b64encode(chunk).decode("utf-8")
}
}
await ws.send(json.dumps(msg))
await asyncio.sleep(0.02)
< /code>
У нас также есть полная @app.websocket (' /media') логика, обработчик Twiml и Async Startup через Hypercorn. 
Подозрения: 

Twilio получает Audio, но мы с дилформированием. Тем не менее, это не услышано
Может быть, Twilio ожидает дополнительных заголовков или данных рукопожатия? Для: 

Если вы когда-либо получали приложение Python (не node.js), работая с: < /li>
Twilio Media Streams (двусторонний) < /li>
Whisper /GPT для разговора < /li>
elevenl для ttts. Аудио, пожалуйста, поделитесь тем, что вы узнали! 22).>

Подробнее здесь: https://stackoverflow.com/questions/796 ... ranscripts

1752424521

Anonymous

 Я построил голосового помощника в реальном времени, используя Twilio Media Streams, Openai GPT и ElevenLabs, с аудио, обрабатываемым на Python с использованием Quart + Hypercorn. Приложение подключает, транскрибирует голоса из LL, генерирует ответ и передает его обратно через WebSocket - но мы ничего не слышим, когда мы призываем себя проверить его. Zero audio.
What I'm Trying to Do:
Enable two-way voice calls where:
[list]
[*]The caller speaks → Whisper transcribes
[*]GPT-4 replies → ElevenLabs generates audio
[*]The response is streamed back to the caller using Media Stream Twilio
[/list]
Я хочу естественный разговор, живой разговор между клиентом и регистратором AI. /> [*] Whisper Точная транскрибирует речь вызывающего абонента < /li>
 GPT генерирует правильный ответ < /li>
 ElevenLabs возвращает действительный файл mp3 < /li>
 ffmpeg преобразует это в mp3-law @8000hz. Кадры над WebSocket (20 мс µ-законовыми кусочками) < /li>
 Журналы подтверждают, что аудио-поток отправляется в рамках за кадром < /li>
 Call Stay Snape (с паузой), журналы статуса Fire < /li>
 Whisper Proves Proves Proves Searuio не слышит Audio < /li>
 но. Нет приветствия. Нет ответа. Просто Единая молчание. < /Li>
< /ul>
Что я попробовал (обширная история отладки) < /p>

  подтвержденное преобразование µ -raw с помощью: < /p>
ffmpeg -y -i file.mp3 -f mulaw -Acodec -AC -AC -AC 1000 -AC -AC -IAC. file.raw < /p>
< /li>
  использовал 160-байтовые куски в течение 20 мс @ 8 кГц < /p>
< /li>
  Инъективное 1 полное секунду из тишины µ-lak, чтобы запустить буфер < /p>
< /li>

< /li>
  Используется правильный трек: «inbound» для аудиокадров < /p>
< /li>
  Установите тип контента в качестве аудио /mulaw внутри:
twiml, используемый для исходящего потока медиа: < /p>

<Start>
<Stream url="wss://chat.example.net/media" track="both_tracks">
<Parameter name="Content-Type" value="audio/mulaw" />
</Stream>
</Start>

< /code>
< /li>
  проверил, что .mp3 и .raw Audio Sound Perfect, когда воспроизводится локально < /p>
< /li>
  Пробовал запись TWIML, чтобы прослушать, что вызывающий может услышать (все еще молчит) < /p>
< /li>           Соответствующий Python (потоковой аудио до Twilio): < /p>
async def stream_audio(ws, stream_sid: str, audio_path: str):
raw_path = audio_path.rsplit('.', 1)[0] + ".raw"
subprocess.run([
"ffmpeg", "-y", "-i", audio_path,
"-f", "mulaw", "-acodec", "pcm_mulaw",
"-ar", "8000", "-ac", "1", raw_path
])
with open(raw_path, "rb") as f:
while chunk := f.read(160):
msg = {
"event": "media",
"streamSid": stream_sid,
"media": {
"track": "inbound",
"payload": base64.b64encode(chunk).decode("utf-8")
}
}
await ws.send(json.dumps(msg))
await asyncio.sleep(0.02)
< /code>
У нас также есть полная @app.websocket (' /media') логика, обработчик Twiml и Async Startup через Hypercorn. < /p>
Подозрения: < /p>

 Twilio получает Audio, но мы с дилформированием. Тем не менее, это не услышано
 Может быть, Twilio ожидает дополнительных заголовков или данных рукопожатия? Для: < /p>

 Если вы когда-либо получали приложение Python (не node.js), работая с: < /li>
 Twilio Media Streams (двусторонний) < /li>
 Whisper /GPT для разговора < /li>
 elevenl для ttts. Аудио, пожалуйста, поделитесь тем, что вы узнали! 22).> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79624529/twilio-media-streams-elevenlabs-openai-python-call-connects-transcripts[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Транскрипция вызова в реальном времени с использованием Twilio Media Streams и Deepgram в приложении Fastapi/Next.js не

Последнее сообщение Anonymous « 03 сен 2025, 00:06
Добавлено в форуме Python

Anonymous » 03 сен 2025, 00:06 » в форуме Python

Я построил приложение Call-Center с помощью Next.js для Frontend и Fastapi для бэкэнда, интегрированного с Twilio для голосовых вызовов. Основные функции работают: пользователи могут инициировать исходящие вызовы от портала Frontend до любого номера...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
03 сен 2025, 00:06
Что я могу сделать с Call.getSubresourceuris () и Call.geturi () в Twilio

Последнее сообщение Anonymous « 26 июл 2025, 21:32
Добавлено в форуме JAVA

Anonymous » 26 июл 2025, 21:32 » в форуме JAVA

В типичном коде Twilio Call, как это:

CallCreator callCreator = Call.creator(to, from, twiml);
Call call = callCreator.create();

'Объект Call' содержит некоторую информацию.
в бетоне я хочу знать и оцените образец кода, который показывает мне,...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
26 июл 2025, 21:32
Ошибка API OpenAI: «Нет модуля с именем openai.embeddings_utils; openai не является пакетом»

Последнее сообщение Anonymous « 03 янв 2024, 19:45
Добавлено в форуме Python

Anonymous » 03 янв 2024, 19:45 » в форуме Python

Я хочу использовать openai.embeddings_utils import get_embeddings Так что уже устанавливайте openai

Имя: openai Версия: 0.26.5 Краткое описание: Клиентская библиотека Python для API OpenAI. Домашняя страница: Автор: OpenAI Электронная почта...

0 Ответы

169 Просмотры

Последнее сообщение Anonymous
03 янв 2024, 19:45
Ошибка API OpenAI: «Вы пытались получить доступ к openai.Model, но это больше не поддерживается в openai\>=1.0.0»

Последнее сообщение Anonymous « 22 июн 2024, 00:54
Добавлено в форуме Python

Anonymous » 22 июн 2024, 00:54 » в форуме Python

Используя код Visual Studio и PyCharm, после установки openai (pip install openai) меня беспокоит странная ошибка - пожалуйста, помогите.
Если, например, я пишу: import openai

openai.api_key = sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx...

0 Ответы

115 Просмотры

Последнее сообщение Anonymous
22 июн 2024, 00:54
Ошибка API OpenAI: «Нет модуля с именем openai.embeddings_utils; openai не является пакетом»

Последнее сообщение Anonymous « 20 сен 2024, 22:04
Добавлено в форуме Python

Anonymous » 20 сен 2024, 22:04 » в форуме Python

Я хочу использовать openai.embeddings_utils, import get_embeddings
Поэтому уже установил openai
Name: openai
Version: 0.26.5
Summary: Python client library for the OpenAI API
Home-page:
Author: OpenAI
Author-email: support@openai.com
License:...

0 Ответы

84 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 22:04

Вернуться в «Python»