speech-recognition - 使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？

Question

我使用来自 Kaldi 的“egs/tidigits”代码生成了“七”话语的频谱图，使用 23 个 bin、20kHz 采样率、25ms 窗口和 10ms 移位。频谱图如下所示，通过 MATLAB imagesc 函数可视化：

我正在尝试使用 Librosa 作为 Kaldi 的替代品。我使用与上面相同数量的箱、采样率和窗口长度/移位设置我的代码如下。

time_series, sample_rate = librosa.core.load("7a.wav",sr=20000)
spectrogram = librosa.feature.melspectrogram(time_series, sr=20000, n_mels=23, n_fft=500, hop_length=200)
log_S = librosa.core.logamplitude(spectrogram)
np.savetxt("7a.txt", log_S.T)

但是，当我将生成的同一 WAV 文件的 Librosa 频谱图可视化时，它看起来会有所不同：

有人可以帮我理解为什么这些看起来如此不同吗？在我尝试过的其他 WAV 文件中，我注意到在上面的 Librosa 脚本中，我的擦音（如上例中“七”中的 /s/）正在被截断，这极大地影响了我的数字分类准确性。谢谢！

score 4 · Accepted Answer

Kaldi 默认在 dct 输出上应用 Lifter，这就是上系数被衰减的原因。在此处查看详细信息。

speech-recognition - 使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？

1 回答 1

Related

Reference