我正在为嵌入式设备的语音相关语音识别解决方案寻找解决方案。我看过pocketsphinx,但因为我仍然不熟悉它,我想也许更有经验的人可能知道。是否可以使用pocketsphinx 来实现这样的语音识别。它应该记录音频,提取其特征,然后将其与所说的任何内容相匹配,而不是使用声学和语言模型。是否可以使用 pocketsphinx 来实现这个流程?如果不是,有人可以为我指出这样一个解决方案的正确方向吗?谢谢你。
问问题
285 次
1 回答
1
是否可以使用pocketsphinx 来实现这样的语音识别。
pocketsphinx API 中没有这样的功能
您可以做的是先使用 sphinxbase 提取 MFC 系数,例如参见 sphinx_fe 源。
然后你可以应用DTW算法来比较记录。DTW 的实现非常简单,只需要 50 行代码:
http://en.wikipedia.org/wiki/Dynamic_time_warping
很少有库也实现了 DTW,您可以在维基百科页面上找到链接。
很高兴看到一个演示 DTW 实现的 pocketsphinx 补丁。
于 2012-12-05T07:51:48.740 回答