Я внедряю виртуального помощника в моем приложении Expo и хочу использовать распознание выставки для голосового ввода. Я читал, что Android и iOS обрабатывают распознавание речи по-разному на уровне двигателя: < /p>
Android: использует встроенный речевой режим. Аудио обычно отправляется в Google Shight Services (онлайн), но он также может работать в автономном режиме, если пользователь загрузил языковой пакет. Аудио всегда отправляется на серверы Apple для обработки. < /Li>
< /ul>
Обе платформы поддерживают вьетнамцы (Vi-VN), но:
- нет четкой документации по максимальной длине звука (рекомендация, чтобы разделить на ~ 1-минутные черты). Запросы/Устройство/день.
Автомально ли разоблачить или обработать эти ограничения, конкретные для конкретных платформ, или мне нужно реализовать пользовательскую обработку (например, аудиосинг-аудио на длинных записях)? Языковой пакет установлен, или мне нужен собственный код?
Подробнее здесь: https://stackoverflow.com/questions/797 ... ech-recogn
Мобильная версия