speech-recognition - pocketsphinx 之前的降噪会降低识别精度

Question

我正在尝试提高pocketsphinx 在嘈杂环境中的识别准确性。但是，用户可能会在可变环境中使用该应用程序。因此，我不想用噪音训练。

我的问题是，在将语音信号输入到pocketsphinx之前降噪是否一定会降低识别精度？

如果是，降噪后需要保留哪些语音特征？目前我观察到，如果我使用降噪，WER 从 ~40%（自由格式语言）上升到 ~60%。

补充一点，降噪后的语音在感知上听起来确实更好。

Pocketsphinx argfile:

-lm   lm_giga_64k_vp_3gram.DMP
-dict lm_giga_64k_vp.sphinx.dic 
-hmm  voxforge_en_sphinx.cd_cont_5000

这里的想法是展示启用降噪后语音识别精度的提高，直观地说，这应该是理想的情况，除非降噪算法完全弄乱了信号的频谱内容。

任何帮助，将不胜感激。

score 5 · Accepted Answer

目前我观察到，如果我使用降噪，WER 从 ~40%（自由格式语言）上升到 ~60%。

这些是非常糟糕的利率，因为：

1）您使用的是过时的模型

2）您使用的是过时的pocketsphinx，没有降噪。

外部降噪通常会降低语音识别的准确性，幸运的是最新的 pocketsphinx 有它自己的降噪模块，这使得它对噪声非常鲁棒。你只需要更新。要获得最佳结果，您需要：

1) 从http://github.com/cmusphinx下载并使用最新的 sphinxbase 和 pocketsphinx

2) 下载最新的声学和语言模型：

这将允许您设置适当的基线。要尝试开启和关闭降噪，您可以使用命令行配置选项：

-remove_noise yes/no

有关如何降低包括噪声鲁棒性在内的准确性的进一步建议，您最好提供您想要识别的音频的测试样本。详情见：

1 回答 1