2

我正在寻找一个语音识别 API,它可以在用户说话时返回中间结果,类似于谷歌在其主页 ( https://www.google.com ) 上所做的事情。我正在寻找支持法语的 API。我想做的是创建一个类似于 Google 语音搜索的 Web 应用程序。

  • 不建议将 Google Speech API 用于专业开发,因为它经常更改并且没有完整记录。
  • IBM Watson 不支持法语
  • AT&T Speech API 不返回中间结果
  • CMU Sphinx 返回非常糟糕的结果(请参阅此处的演示:http: //syl22-00.github.io/pocketsphinx.js/live-demo.html
  • Nuance 产品似乎不是为 Web 应用程序而设计的。(如果你知道我应该如何使用它们,我很感兴趣!)
4

2 回答 2

2

Cortana 和 Skype Translator 使用的Microsoft 的Project Oxford Speech Recognition API满足您的两个标准:它支持法语(和其他 6 种语言)并在您向其传输音频时返回部分/临时/在线假设。

(顺便说一句,在使用 Pocketsphinx 进行在线识别时,通常会导致糟糕的准确性的问题是糟糕的 CMN(倒谱均值归一化)。当你给 pocketsphinx 一段完整的音频来处理它时,它会计算整个话语的 CMN,但是当你将音频流式传输到它默认情况下不计算 CMN。一种解决方案是给它一个完整的话语,检索由 pocketsphinx 计算的 CMN,然后将该 CMN 用于流式音频。请注意,每个音频通道/环境的 CMN 都不同,并且与 pocketsphinx 的 Python 接口不提供与 CMN 数据的接口。如果这是您想要调查的路线,我有一个补丁。)

于 2015-10-10T23:40:11.617 回答
1

许多语音转文本应用程序使用 Nuance Communications 开发的语音识别技术。可以很好地与 Web 应用程序配合使用的 SDK 是他们的服务器 SDK,它支持将流式音频转换为文本。除了英语和德语,它还支持法语。要使用它,您可能需要通过 AJAX 请求将音频输入流式传输到将要处理它的服务器,然后从您的 AJAX 请求中接受文本作为 XMLHTTPResponse。

于 2015-10-10T16:37:24.820 回答