3

我使用来自 Kaldi 的“egs/tidigits”代码生成了“七”话语的频谱图,使用 23 个 bin、20kHz 采样率、25ms 窗口和 10ms 移位。频谱图如下所示,通过 MATLAB imagesc 函数可视化:

卡尔迪

我正在尝试使用 Librosa 作为 Kaldi 的替代品。我使用与上面相同数量的箱、采样率和窗口长度/移位设置我的代码如下。

time_series, sample_rate = librosa.core.load("7a.wav",sr=20000)
spectrogram = librosa.feature.melspectrogram(time_series, sr=20000, n_mels=23, n_fft=500, hop_length=200)
log_S = librosa.core.logamplitude(spectrogram)
np.savetxt("7a.txt", log_S.T)

但是,当我将生成的同一 WAV 文件的 Librosa 频谱图可视化时,它看起来会有所不同:

图书馆

有人可以帮我理解为什么这些看起来如此不同吗?在我尝试过的其他 WAV 文件中,我注意到在上面的 Librosa 脚本中,我的擦音(如上例中“七”中的 /s/)正在被截断,这极大地影响了我的数字分类准确性。谢谢!

4

1 回答 1

4

Kaldi 默认在 dct 输出上应用 Lifter,这就是上系数被衰减的原因。在此处查看详细信息。

于 2017-04-06T07:33:44.070 回答