我目前正在努力了解功率谱是如何存储在 kaldi 框架中的。
我似乎已经使用成功创建了一些数据文件
$cmd JOB=1:$nj $logdir/spect_${name}.JOB.log \
compute-spectrogram-feats --verbose=2 \
scp,p:$logdir/wav_spect_${name}.JOB.scp ark:- \| \
copy-feats --compress=$compress $write_num_frames_opt ark:- \
ark,scp:$specto_dir/raw_spectogram_$name.JOB.ark,$specto_dir/raw_spectogram_$name.JOB.scp
这给了我一个大文件,其中包含不同音频文件的数据点,就像这样。
问题是我不确定我应该如何解释这个数据集,我知道在此之前执行 fft,我想这是一件好事。
上面给出的输出示例来自一个 1 秒长的文件。
所有标准都已用于计算频谱图,因此采样频率应为 16 kHz,帧长 = 25 ms,重叠 = 10 ms。第一组数据点数为 25186。
鉴于这些信息,我可以以某种方式解释输出吗?
通常当执行 fft 时,频率 bin 大小可以通过F_s/N=bin_size
其中F_s
是采样频率和N
FFT 长度来提取。那么这是同一种情况吗?16000/25186 = 0.6...Hz/bin?
还是我解释不正确?