Я пытаюсь предварительно обработать аудиофили для использования в нейронной сети с SoundFile.read () , но функция по -разному форматирует возвращаемые данные для разных файлов .flac с одинаковой скоростью и длиной дискретизации. Например, вызов данных, sr = soundfile.read (audiofile1) создал массив с Shape Data.shape = (48000, 2) (где значения отдельных элементов были либо амплитудой, или Отрицательная амплитуда в Numpy Float64), в то время как вызов Data, sr = soundfile.read (audiofile2) создал массив с Shape Data.shape = (48000,) (где значения отдельных элементов были различными Numpy Float64) .
Кроме того, если это помогает, AudioFile1 была записи, взятой из записи, взятой через Pyaudio, тогда как AudioFile2 была образец из корпуса Librispeech.
Итак, мой вопрос с двумя: < /p>
Почему soundfile.read () < /code> Создание двух разных форматов данных, и как я могу гарантировать, что это Функция возвращает массивы в том же формате в будущем?
Подробнее здесь: https://stackoverflow.com/questions/629 ... nt-formats