Я работаю над прототипом голосового помощника в рамках моего проекта курса «Прикладные исследования I». Цель состоит в том, чтобы создать диалоговую систему, которая собирает данные профиля пользователя (например, имя, навыки, предпочтения в отношении работы) посредством преобразования речи в текст (
STT), подтверждает вводимые данные, сохраняет контекст сеанса и предоставляет голосовые объяснения рекомендаций по работе с использованием фиктивных данных. Мы используем Python для серверной части с такими библиотеками, как
sounddevice,
soundfile,
NumPy и API
OpenAI Realtime для
двунаправленной потоковой передачи. Интерфейс представляет собой простую панель управления Streamlit для тестирования и регистрации таких показателей, как задержка и точность.
Что я пробовал:
- Базовый цикл STT/TTS работает для отдельных полей, но сеансы с несколькими полями иногда теряют контекст.
- Добавлено простое ведение журнала ошибок, но требуется лучшая таксономия ошибок и стратегии повторных попыток.
- Протестировано с помощью NumPy для обработки звука, но интеграция с OpenAI кажется неуклюжей.
Любые советы по передовым практикам, фрагментам кода или ресурсам для загрузки и обмена прототипом (например, на GitHub для совместной работы) будут полезны. Где я могу найти сообщества или форумы для дальнейшей поддержки прототипов голосового ИИ? Теги: python, распознавание речи, преобразование текста в речь, openai-api,streamlit
Подробнее здесь:
https://stackoverflow.com/questions/798 ... -for-onboa