speech-recognition - 除了 Google 之外，还有没有返回中间结果的语音识别 API？

Question

我正在寻找一个语音识别 API，它可以在用户说话时返回中间结果，类似于谷歌在其主页 ( https://www.google.com ) 上所做的事情。我正在寻找支持法语的 API。我想做的是创建一个类似于 Google 语音搜索的 Web 应用程序。

不建议将 Google Speech API 用于专业开发，因为它经常更改并且没有完整记录。
IBM Watson 不支持法语
AT&T Speech API 不返回中间结果
CMU Sphinx 返回非常糟糕的结果（请参阅此处的演示：http: //syl22-00.github.io/pocketsphinx.js/live-demo.html）
Nuance 产品似乎不是为 Web 应用程序而设计的。（如果你知道我应该如何使用它们，我很感兴趣！）

score 2 · Accepted Answer

Cortana 和 Skype Translator 使用的Microsoft 的Project Oxford Speech Recognition API满足您的两个标准：它支持法语（和其他 6 种语言）并在您向其传输音频时返回部分/临时/在线假设。

（顺便说一句，在使用 Pocketsphinx 进行在线识别时，通常会导致糟糕的准确性的问题是糟糕的 CMN（倒谱均值归一化）。当你给 pocketsphinx 一段完整的音频来处理它时，它会计算整个话语的 CMN，但是当你将音频流式传输到它默认情况下不计算 CMN。一种解决方案是给它一个完整的话语，检索由 pocketsphinx 计算的 CMN，然后将该 CMN 用于流式音频。请注意，每个音频通道/环境的 CMN 都不同，并且与 pocketsphinx 的 Python 接口不提供与 CMN 数据的接口。如果这是您想要调查的路线，我有一个补丁。）

score 1 · Accepted Answer

许多语音转文本应用程序使用 Nuance Communications 开发的语音识别技术。可以很好地与 Web 应用程序配合使用的 SDK 是他们的服务器 SDK，它支持将流式音频转换为文本。除了英语和德语，它还支持法语。要使用它，您可能需要通过 AJAX 请求将音频输入流式传输到将要处理它的服务器，然后从您的 AJAX 请求中接受文本作为 XMLHTTPResponse。

speech-recognition - 除了 Google 之外，还有没有返回中间结果的语音识别 API？

2 回答 2

Related

Reference