Я работаю над разработкой модели пробуждающего слова для моего помощника с искусственным интеллектом. Архитектура моей модели включает в себя уровень LSTM для обработки аудиоданных, за которым следует линейный уровень. Однако я столкнулся с неожиданной формой выходных данных линейного слоя, что вызывает путаницу.
После передачи выходных данных LSTM (форма: 4, 32, 32) на линейный слой Я ожидал выходной формы (4, 32, 1). Однако фактическая форма вывода равна (4, 32, 1).
В моей задаче двоичной классификации я стремлюсь различать два класса: 0 для «не просыпаться» и 1. для «разбуди ИИ». Размер моего пакета равен 32, и я ожидал, что выходные данные будут иметь форму (32, 1), чтобы представлять один прогноз для каждого аудиовхода MFCC.
Может ли кто-нибудь посоветовать правильную конфигурацию линейный слой или какие-либо этапы обработки, необходимые для достижения желаемой выходной формы (32, 1)? Мы будем очень признательны за любую информацию или примеры кода.
Подробнее здесь: https://stackoverflow.com/questions/715 ... -detection
Как правильно настроить LSTM с линейным слоем для обнаружения слов пробуждения ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение