我使用来自 Kaldi 的“egs/tidigits”代码生成了“七”话语的频谱图,使用 23 个 bin、20kHz 采样率、25ms 窗口和 10ms 移位。频谱图如下所示,通过 MATLAB imagesc 函数可视化:
我正在尝试使用 Librosa 作为 Kaldi 的替代品。我使用与上面相同数量的箱、采样率和窗口长度/移位设置我的代码如下。
time_series, sample_rate = librosa.core.load("7a.wav",sr=20000)
spectrogram = librosa.feature.melspectrogram(time_series, sr=20000, n_mels=23, n_fft=500, hop_length=200)
log_S = librosa.core.logamplitude(spectrogram)
np.savetxt("7a.txt", log_S.T)
但是,当我将生成的同一 WAV 文件的 Librosa 频谱图可视化时,它看起来会有所不同:
有人可以帮我理解为什么这些看起来如此不同吗?在我尝试过的其他 WAV 文件中,我注意到在上面的 Librosa 脚本中,我的擦音(如上例中“七”中的 /s/)正在被截断,这极大地影响了我的数字分类准确性。谢谢!