Python Streamlit в реальном времени речи к тексту с Azure SDK

Python Streamlit в реальном времени речи к тексту с Azure SDK ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Python Streamlit в реальном времени речи к тексту с Azure SDK

Цитата

Сообщение Anonymous » 26 июн 2025, 16:10

Я пытаюсь создать речь в реальном времени для текста, используя Streatlit и Azure Speech SDK.
Я могу легко транскрибировать аудио/видеофайлы без проблем, но я хочу интегрировать транскрипцию в реальном времени (из браузера). Повторно используйте функцию, которую я создал, используя файлы, передайте Audiostream и поверните ее асинхронно, но тоже не работал. https://microsoft.github.io/techexcel-i ... 02.htmlbr/> Работал только на локальном компьютере, потому что он использовал микрофон хоста
отредактированный код: < /p>
def addsentence(evt: ConversationTranscriptionEventArgs):
if evt.result.speaker_id == "Unknown":
logger.debug("Unknown speaker: " + str(evt))
return
logger.info(f"Detected **{evt.result.speaker_id}**: {evt.result.text}")
st.session_state.r.append(f"**{evt.result.speaker_id}**: {evt.result.text}")
< /code>
webrtc_ctx = webrtc_streamer(key="speech-to-text", mode=WebRtcMode.SENDONLY,
media_stream_constraints={"video": False, "audio": True},
audio_receiver_size=256)

while webrtc_ctx.state.playing:
if not st.session_state["recording"]:
st.session_state.r = []

st.session_state.stream = PushAudioInputStream()
###
audio_input = speechsdk.AudioConfig(stream=st.session_state.stream)
speech_config = speechsdk.SpeechConfig(env["SPEECH_KEY"], env["SPEECH_REGION"])
if "proxy_host" in env and "proxy_port" in env:
speech_config.set_proxy(env["proxy_host"], int(env["proxy_port"]))
conversation_transcriber = ConversationTranscriber(speech_config, audio_input, language="it-IT")

conversation_transcriber.transcribed.connect(addsentence)
###

st.session_state.fullwav = pydub.AudioSegment.empty()
with (st.chat_message("assistant")):
with st.spinner("Trascrizione in corso..."):
stream_placeholder = st.expander("Trascrizione", icon="

").empty()

conversation_transcriber.start_transcribing_async()
logger.info("Transcribing started!")
st.session_state["recording"] = True

try:
audio_frames = webrtc_ctx.audio_receiver.get_frames(timeout=1)
except queue.Empty:
time.sleep(0.1)
logger.debug("No frame arrived.")
continue

stream_placeholder.markdown("## Trascrizione:\n\n" + "\\\n".join(st.session_state.r))

for audio_frame in audio_frames:
st.session_state.stream.write(audio_frame.to_ndarray().tobytes())
sound = pydub.AudioSegment(
data=audio_frame.to_ndarray().tobytes(),
sample_width=audio_frame.format.bytes,
frame_rate=audio_frame.sample_rate,
channels=len(audio_frame.layout.channels),
)
st.session_state.fullwav += sound

if st.session_state["recording"]:
logger.info("stopped listening")
wav_file_path= tempfile.NamedTemporaryFile(suffix='.wav', delete=False).name
st.session_state.fullwav.export(wav_file_path, format="wav")
< /code>
EDIT 28/3 I rolled back to PushAudioInputStream, I was able to process rtmp using ffmpeg
def transcribe_rmtp(self, rtmp_url: str) -> str:
push_stream = PushAudioInputStream()
audio_config = AudioConfig(stream=push_stream)
transcriber = self.setup_transcriber(audio_config)
transcriber.start_transcribing_async()

ffmpeg_args = [
"ffmpeg", "-i", rtmp_url, "-vn", "-ac", "1", "-ar", "16000",
"-f", "s16le", "-fflags", "+genpts", "-bufsize", "512k",
"-maxrate", "128k", "pipe:1"]
ffmpeg_process = subprocess.Popen(ffmpeg_args, stdout=subprocess.PIPE, stderr=subprocess.DEVNULL)

try:
while not self.done:
if self.on_transcribed:
self.on_transcribed("\\\n".join(self.results))
chunk = ffmpeg_process.stdout.read(4096)
if not chunk:
break
push_stream.write(chunk)
time.sleep(0.1)
except Exception as e:
logger.error("Errore durante lo streaming RTMP: %s", e)
finally:
push_stream.close()
ffmpeg_process.kill()
transcriber.stop_transcribing_async()

return "\\\n".join(self.results)

Подробнее здесь: https://stackoverflow.com/questions/795 ... -azure-sdk

1750943450

Anonymous

 Я пытаюсь создать речь в реальном времени для текста, используя Streatlit и Azure Speech SDK. 
Я могу легко транскрибировать аудио/видеофайлы без проблем, но я хочу интегрировать транскрипцию в реальном времени (из браузера). Повторно используйте функцию, которую я создал, используя файлы, передайте Audiostream и поверните ее асинхронно, но тоже не работал. https://microsoft.github.io/techexcel-implementing-automation-practices-using-azure-openai/docs/04_implement_audio_transcription/0402.htmlbr/>  Работал только на локальном компьютере, потому что он использовал микрофон хоста 
отредактированный код: < /p>
def addsentence(evt: ConversationTranscriptionEventArgs):
if evt.result.speaker_id == "Unknown":
logger.debug("Unknown speaker: " + str(evt))
return
logger.info(f"Detected **{evt.result.speaker_id}**: {evt.result.text}")
st.session_state.r.append(f"**{evt.result.speaker_id}**: {evt.result.text}")
< /code>
webrtc_ctx = webrtc_streamer(key="speech-to-text", mode=WebRtcMode.SENDONLY,
media_stream_constraints={"video": False, "audio": True},
audio_receiver_size=256)

while webrtc_ctx.state.playing:
if not st.session_state["recording"]:
st.session_state.r = []

st.session_state.stream = PushAudioInputStream()
###
audio_input = speechsdk.AudioConfig(stream=st.session_state.stream)
speech_config = speechsdk.SpeechConfig(env["SPEECH_KEY"], env["SPEECH_REGION"])
if "proxy_host" in env and "proxy_port" in env:
speech_config.set_proxy(env["proxy_host"], int(env["proxy_port"]))
conversation_transcriber = ConversationTranscriber(speech_config, audio_input, language="it-IT")

conversation_transcriber.transcribed.connect(addsentence)
###

st.session_state.fullwav = pydub.AudioSegment.empty()
with (st.chat_message("assistant")):
with st.spinner("Trascrizione in corso..."):
stream_placeholder = st.expander("Trascrizione", icon="📝").empty()

conversation_transcriber.start_transcribing_async()
logger.info("Transcribing started!")
st.session_state["recording"] = True

try:
audio_frames = webrtc_ctx.audio_receiver.get_frames(timeout=1)
except queue.Empty:
time.sleep(0.1)
logger.debug("No frame arrived.")
continue

stream_placeholder.markdown("## Trascrizione:\n\n" + "\\\n".join(st.session_state.r))

for audio_frame in audio_frames:
st.session_state.stream.write(audio_frame.to_ndarray().tobytes())
sound = pydub.AudioSegment(
data=audio_frame.to_ndarray().tobytes(),
sample_width=audio_frame.format.bytes,
frame_rate=audio_frame.sample_rate,
channels=len(audio_frame.layout.channels),
)
st.session_state.fullwav += sound

if st.session_state["recording"]:
logger.info("stopped listening")
wav_file_path= tempfile.NamedTemporaryFile(suffix='.wav', delete=False).name
st.session_state.fullwav.export(wav_file_path, format="wav")
< /code>
[b]EDIT 28/3[/b] I rolled back to PushAudioInputStream, I was able to process rtmp using ffmpeg
    def transcribe_rmtp(self, rtmp_url: str) -> str:
push_stream = PushAudioInputStream()
audio_config = AudioConfig(stream=push_stream)
transcriber = self.setup_transcriber(audio_config)
transcriber.start_transcribing_async()

ffmpeg_args = [
"ffmpeg", "-i", rtmp_url, "-vn", "-ac", "1", "-ar", "16000",
"-f", "s16le", "-fflags", "+genpts", "-bufsize", "512k",
"-maxrate", "128k", "pipe:1"]
ffmpeg_process = subprocess.Popen(ffmpeg_args, stdout=subprocess.PIPE, stderr=subprocess.DEVNULL)

try:
while not self.done:
if self.on_transcribed:
self.on_transcribed("\\\n".join(self.results))
chunk = ffmpeg_process.stdout.read(4096)
if not chunk:
break
push_stream.write(chunk)
time.sleep(0.1)
except Exception as e:
logger.error("Errore durante lo streaming RTMP: %s", e)
finally:
push_stream.close()
ffmpeg_process.kill()
transcriber.stop_transcribing_async()

return "\\\n".join(self.results)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79519433/python-streamlit-realtime-speech-to-text-with-azure-sdk[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Трепетать речи к тексту непрерывной записи

Последнее сообщение Anonymous « 31 мар 2025, 18:15
Добавлено в форуме Android

Anonymous » 31 мар 2025, 18:15 » в форуме Android

Я новичок в разработке трепетания, и я некоторое время пытался что -то создать, и это включает в себя использование трепетной речи в текст. Но я столкнулся с этим вопросом, что речь в текст просто не записывает непрерывно. Он начинает запись в...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
31 мар 2025, 18:15
Я получаю повторяющиеся слова и фразы в речи к тексту, когда в мобильном браузере, когда я говорю адрес, который я испол

Последнее сообщение Anonymous « 12 июл 2025, 23:03
Добавлено в форуме JAVA

Anonymous » 12 июл 2025, 23:03 » в форуме JAVA

Название
Повторяемые слова /фразы при вводе речевого текста (мобильный браузер, Flutter Web OK)-Функция Dedupe не работает в Flutter
Body
Я строю личную информацию в Flutter с речевым током (с использованием refer_to_text и stext-steph Записано...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
12 июл 2025, 23:03
Я получаю повторяющиеся слова и фразы в речи к тексту, когда в мобильном браузере, когда я говорю адрес, который я испол

Последнее сообщение Anonymous « 12 июл 2025, 23:03
Добавлено в форуме Android

Anonymous » 12 июл 2025, 23:03 » в форуме Android

Название
Повторяемые слова /фразы при вводе речевого текста (мобильный браузер, Flutter Web OK)-Функция Dedupe не работает в Flutter
Body
Я строю личную информацию в Flutter с речевым током (с использованием refer_to_text и stext-steph Записано...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
12 июл 2025, 23:03
Как предотвратить повторные слова и фразы в речи к тексту адреса в мобильном браузере в Flutter?

Последнее сообщение Anonymous « 13 июл 2025, 01:00
Добавлено в форуме JAVA

Anonymous » 13 июл 2025, 01:00 » в форуме JAVA

Повторяемые слова/фразы при вводе речевого текста (мобильный браузер, Flutter Web OK)-Функция dedupe, не работающая в Flutter
Я строю форму личной информации в Flutter с речевым текстом (используя речевую_to_text и пакет текста в речь. Ввод...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
13 июл 2025, 01:00
Как предотвратить повторные слова и фразы в речи к тексту адреса в мобильном браузере в Flutter?

Последнее сообщение Anonymous « 13 июл 2025, 01:00
Добавлено в форуме Android

Anonymous » 13 июл 2025, 01:00 » в форуме Android

Повторяемые слова/фразы при вводе речевого текста (мобильный браузер, Flutter Web OK)-Функция dedupe, не работающая в Flutter
Я строю форму личной информации в Flutter с речевым текстом (используя речевую_to_text и пакет текста в речь. Ввод...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
13 июл 2025, 01:00

Вернуться в «Python»