Ищу рекомендации по реализации голосового взаимодействия в реальном времени в Python для прототипа помощника по адаптаци

Ищу рекомендации по реализации голосового взаимодействия в реальном времени в Python для прототипа помощника по адаптаци ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 05 фев 2026, 00:36

Я работаю над прототипом голосового помощника в рамках моего проекта курса «Прикладные исследования I». Цель состоит в том, чтобы создать диалоговую систему, которая собирает данные профиля пользователя (например, имя, навыки, предпочтения в отношении работы) посредством преобразования речи в текст (STT), подтверждает вводимые данные, сохраняет контекст сеанса и предоставляет голосовые объяснения рекомендаций по работе с использованием фиктивных данных. Мы используем Python для серверной части с такими библиотеками, как sounddevice, soundfile, NumPy и API OpenAI Realtime для двунаправленной потоковой передачи. Интерфейс представляет собой простую панель управления Streamlit для тестирования и регистрации таких показателей, как задержка и точность.

Что я пробовал:

Базовый цикл STT/TTS работает для отдельных полей, но сеансы с несколькими полями иногда теряют контекст.
Добавлено простое ведение журнала ошибок, но требуется лучшая таксономия ошибок и стратегии повторных попыток.
Протестировано с помощью NumPy для обработки звука, но интеграция с OpenAI кажется неуклюжей.

Любые советы по передовым практикам, фрагментам кода или ресурсам для загрузки и обмена прототипом (например, на GitHub для совместной работы) будут полезны. Где я могу найти сообщества или форумы для дальнейшей поддержки прототипов голосового ИИ? Теги: python, распознавание речи, преобразование текста в речь, openai-api,streamlit

Подробнее здесь: https://stackoverflow.com/questions/798 ... -for-onboa

1770241013

Anonymous

Я работаю над прототипом голосового помощника в рамках моего проекта курса «Прикладные исследования I». Цель состоит в том, чтобы создать диалоговую систему, которая собирает данные профиля пользователя (например, имя, навыки, предпочтения в отношении работы) посредством преобразования речи в текст ([b]STT[/b]), подтверждает вводимые данные, сохраняет контекст сеанса и предоставляет голосовые объяснения рекомендаций по работе с использованием фиктивных данных. Мы используем Python для серверной части с такими библиотеками, как [b]sounddevice[/b], [b]soundfile[/b], [b]NumPy[/b] и API [b]OpenAI[/b] Realtime для [b]двунаправленной[/b] потоковой передачи. Интерфейс представляет собой простую панель управления Streamlit для тестирования и регистрации таких показателей, как задержка и точность.

Что я пробовал:
[list]
[*][b]Базовый цикл STT/TTS работает для отдельных полей, но сеансы с несколькими полями иногда теряют контекст.[/b]

[*][b]Добавлено простое ведение журнала ошибок, но требуется лучшая таксономия ошибок и стратегии повторных попыток.[/b]

[*][b]Протестировано с помощью NumPy для обработки звука, но интеграция с OpenAI кажется неуклюжей.[/b]

[/list]
Любые советы по передовым практикам, фрагментам кода или ресурсам для загрузки и обмена прототипом (например, на GitHub для совместной работы) будут полезны. Где я могу найти сообщества или форумы для дальнейшей поддержки прототипов голосового ИИ? Теги: python, распознавание речи, преобразование текста в речь, openai-api,streamlit 

Подробнее здесь: [url]https://stackoverflow.com/questions/79883093/seeking-guidance-on-implementing-real-time-voice-interaction-in-python-for-onboa[/url]