4

我对语音控制应用程序有几个想法。不幸的是,根据我从 Siri 和 Google Voice Actions 中看到的情况,这项技术似乎还没有完全成熟。即使在完全安静的环境中,准确性也很差,以至于将其输入手机通常感觉更容易。

使任务更容易的一种方法是将系统限制为几个命令,特别选择听起来非常不同的命令,而不是将声音传递给服务并仅获取文本。

所以我的要求是:

  • 当被要求使用一组有限的命令时,准确性非常高
  • 最好在移动设备上工作,但仅限 PC 的库也可能有用
  • 离线再次是可取的,但不是必需的
  • 无需开源 - 许可很好

是否存在这样的 API 或软件?

4

4 回答 4

4

我最近参与了一个开发基于移动语法的语音识别应用程序平台的项目,具有以下功能:

所有组件都是开源的,设置自己的服务器并将系统移植到您的语言应该不会太难,因为您拥有该语言的声学模型。

于 2012-09-24T22:16:05.903 回答
1

使用支持语法 ( SRGS ) 的语音识别系统将提高您的识别率。语法通过将预期的单词和短语指定为语音识别系统用来获得匹配的规则来限制搜索空间,因此可以提高性能和识别率。

VoiceXML是一种很好的语言,用于开发使用电话作为交互模式的语音应用程序。我所说的使用电话作为交互模式的意思是,用户实际上拨打了一个IVR 系统,该系统接听电话,然后通过录制的音频提示和通过语音或电话键盘输入的用户输入开始与用户交互。VoiceXML 不适用于具有原生 Android 应用程序或 Web 应用程序等可视界面的移动应用程序。要开发使用语音的视觉应用程序,您可以使用像Nuance 的移动工具这样的工具,它的价格可能很高。或者像Sphinx这样的开源软件。

于 2012-09-24T13:12:21.920 回答
1

VoiceXML 和SRGS可能是您搜索的良好起点。可悲的是,开源世界中并没有太多东西,因为“正确”处理这类东西将意味着一大笔收入。

于 2012-09-24T03:45:50.970 回答
1

大多数基于云的语音识别 API(Google、AT&T、Siri 等)不允许使用自定义SRGS语法来提高准确性。这真的很不幸。

一种可能性是结合Voxeo的两种技术,即TropoPhono。前者是基于 API 的语音平台,比 VoiceXML 平台更易于使用,后者是用于从浏览器进行(和控制)语音呼叫的 jQuery 插件。Tropo 支持 SRGS 语法。

于 2012-09-24T14:09:15.327 回答