我正在尝试提高pocketsphinx 在嘈杂环境中的识别准确性。但是,用户可能会在可变环境中使用该应用程序。因此,我不想用噪音训练。
我的问题是,在将语音信号输入到pocketsphinx之前降噪是否一定会降低识别精度?
如果是,降噪后需要保留哪些语音特征?目前我观察到,如果我使用降噪,WER 从 ~40%(自由格式语言)上升到 ~60%。
补充一点,降噪后的语音在感知上听起来确实更好。
Pocketsphinx argfile:
-lm lm_giga_64k_vp_3gram.DMP
-dict lm_giga_64k_vp.sphinx.dic
-hmm voxforge_en_sphinx.cd_cont_5000
这里的想法是展示启用降噪后语音识别精度的提高,直观地说,这应该是理想的情况,除非降噪算法完全弄乱了信号的频谱内容。
任何帮助,将不胜感激。