OpenEars 可以做中文语音识别吗?见这里:http ://www.politepix.com/openears
1 回答
我是 OpenEars 开发人员。OpenEars 仅提供开箱即用的英语语音识别功能。OpenEars 使用的Pocketsphinx 发行版中有一个普通话声学模型,因此如果您有自己的方法来创建兼容的语言模型和语音词典,并且您正在准备做一些自我导向的研究和测试。声学模型称为 tdt_sc_8k。您可以使用它而不是说明中名为 hub4wsj_sc_8k 的文件夹,但您还需要做更多工作才能使其正常工作。
如果你想尝试这个,你需要阅读 CMU 语音站点上的Sphinx 项目文档,以便清楚地了解声学模型、语言模型和语音词典之间的关系,并弄清楚如何创建兼容的语言模型。您可能可以将此页面上的语音词典作为主词典开始,您可以创建较小的 iPhone 大小的语音词典和随后的语言模型,因为它可能与声学模型兼容。该页面上的语言模型对于 OpenEars 来说太大了。为了测试,我可能会创建一个大约 100 个单词的命令和控制模型。您应该能够使用Sphinx 知识库工具从已经制作语音词典的词库创建语言模型。
下一步将验证您的声学模型、语言模型和语音词典是否在传统的 Pocketsphinx 安装(例如在 Linux 上)中正常工作。如果你得到了很好的结果,你可以来 OpenEars 论坛,我会尝试帮助你让它在 OpenEars 中工作(那里没有保证,因为那个声学模型从来没有成为测试的一部分,但我也可以'想不出它不起作用的特定原因)。OpenEars 的 LanguageModelGenerator 类肯定只适用于英语。您有责任确保声学模型以不妨碍其在 App Store 应用程序中使用的方式获得许可(如果这是您计划分发项目的方式)。
祝你好运!
编辑:我想更新这个,让你知道普通话声学模型现在是OpenEarsExtras的一部分,并说 LanguageModelGenerator 现在已经更新,这样你就可以给它一个你选择的任意主语音词典,如果你有一个正确的格式(即单词后跟一个制表符,后跟一个音素,后跟一个换行符,按字母顺序排列)如果您已经有一个声学模型,这应该会使动态语言建模器更容易与英语以外的语言一起使用。
它应该工作的方式是你有一个你想要的语言的查找字典,类似于默认的英语查找字典 cmu07a.dic,LanguageModelGenerator 处理其余的,所以我关于它的声明需要多个步骤和研究如果您有可以从中查找发音的语音词典,则不一定不再是这种情况。在OpenEars 论坛上非常感谢您在实践中如何提供反馈(请不要在 Stack Overflow 上提供反馈或错误报告)。