Требования:
- Целевые устройства: Android 10+ на оборудовании среднего класса, например Snapdragon 778G, с 8 ГБ ОЗУ.
- Языковые пары: EN↔RU и EN↔FR, с возможным расширением позже
- Офлайн-ориентированный подход
- Дизайн, ориентированный на конфиденциальность, в идеале без облачных API
- Целевая задержка: менее 500 мс от входа микрофона до переведенного аудиовыхода
Преобразование речи в текст → локальная модель перевода → преобразование текста в речь
Проблемы, с которыми я сталкиваюсь:
- Задержка распознавания речи составляет около 1,5 секунды даже при использовании частичных результатов
- Локальные модели перевода работают слишком медленно на устройствах среднего класса.
- Аудиоконвейер может блокировать пользовательский интерфейс, если с ним не обращаться осторожно.
- Какая архитектура наиболее практична для перевода речи в речь со скоростью менее 500 мс на устройствах Android?
- Какие модели локального перевода в настоящее время лучше всего подходят для мобильных устройств, если основными ограничениями являются размер и скорость вывода?
- Какова наилучшая стратегия для обработки частичных результатов распознавания речи без слишком раннего запуска перевода?
- Какая поточность или конструкция конвейера лучше всего подходят для такого рода обработки звука на Android?