我在我的应用程序中使用张开耳朵进行语音识别。主要关注的是准确性。在安静的环境中,准确率约为 50%,但在嘈杂的环境中情况会变得更糟。几乎没有任何东西被正确识别。我目前正在使用大约 300 个单词的字典文件。我应该寻找哪些领域来提高准确性?到目前为止,我还没有对此进行任何调整。
问问题
4426 次
1 回答
17
语音识别应用程序的设计要求您了解语音识别背后的一些基本概念,例如声学模型、语法和语音词典。您可以从 CMUSphinx 教程http://cmusphinx.sourceforge.net/wiki/tutorial中了解更多信息
准确度差是语音应用程序开发的正常状态,您可以使用一个过程来改进它并使应用程序有用。过程如下:
收集您尝试识别的语音样本并创建语音数据库以测量当前的准确性并了解其背后的问题
尝试使用词汇量大小来提高不同语音提示之间的分离度。例如,10 个命令的词汇比 300 个命令的词汇更容易识别。
设计您的应用程序,使要识别的变体数量更少,并且人们的答案很简单。这项活动称为 VUI(语音用户界面设计),这是一个相当大的领域,有许多精彩的书籍和博客文章。您可以在此处找到一些详细信息:http: //www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765
尝试改善应用程序的声学部分。修改字典以匹配您的演讲。调整声学模型以匹配声学特性。有关声学模型适应过程的描述,请参见http://cmusphinx.sourceforge.net/wiki/tutorialadapt。
于 2011-09-16T10:46:34.463 回答