我正在尝试使用 预处理要在神经网络中使用soundfile.read()
的音频文件,但是对于具有相同采样率和长度的不同 .FLAC 文件,该函数对返回的数据进行了不同的格式化。例如,调用data, sr = soundfile.read(audiofile1)
生成一个具有形状的数组data.shape = (48000, 2)
(其中单个元素的值是幅度,0 或 NumPy float64 中的负幅度),而调用data, sr = soundfile.read(audiofile2)
生成一个具有形状的数组data.shape = (48000,)
(其中单个元素的值在 NumPy float64 中变化)。
此外,如果有帮助的话,audiofile1
是从通过 PyAudio 拍摄的录音中提取的录音,而是audiofile2
来自 LibriSpeech 语料库的样本。
所以,我的问题是双重的:
为什么会soundfile.read()
产生两种不同的数据格式,如何确保该函数将来返回相同格式的数组?