1

有没有人有使用 twilio 和 Nuance ASR ( https://developer.nuance.com/public/index.php?task=memberServices ) 来创建语音识别应用程序的经验?\

我认为时间滞后不会使它可行。例如,如果我要提示用户说些什么并让 Nuance 识别它并将转录本还给我,然后我在我的系统中查找它以进一步采取行动,那只会花费太长时间。

  1. 从用户捕获音频,
  2. 从 twilio 获取录音网址,
  3. 并将音频文件传递给细微差别
  4. 然后从细微差别中获取转录
  5. 将单词与我的数据匹配
  6. 采取适当的行动

这一切都应该很快发生,但它是否足够快以被呼叫者接受?

任何想法都会很棒谢谢

附言。我尝试创建标签 Nuance,但不允许

4

3 回答 3

2

我目前正在开发提供实时翻译的通信平台,我正在使用 Twilio 作为我们汽车的平台提供商。翻译语音通话功能。Nuance 的 ASR 技术至少可以说是平均水平,绝对不能用于低频段音频。查看 Google Cloud Speech API。我用它取得了很好的成绩。ASR 大约需要 3-5 秒。

于 2016-10-19T05:16:33.617 回答
1

Nuance Recognizer 确实适用于低频段音频——事实上,它是为在电话环境中使用而设计的——之前的评论是不正确的。但是,问题在于及时将音频流从 Twilio 返回到识别器以进行部分识别。通常 Nuance 识别器使用 MRCP 与 IVR 平台集成,但我认为 Twilio 不支持此协议。因此,如果使用第三方引擎,您可能必须记录该短语,然后将其提交(传输)到您的 ASR 实例,处理响应,并将结果发送回 Twilio - 这会导致延迟,因为 ASR 引擎无法处理部分声音的。问题的简单示例 - 如果有人说话 10 秒,则结果在 10 秒(录制时间)+ 传输时间 + 处理时间 + 返回 Twilio 的时间后不会返回到 Twilio。

于 2017-05-27T15:42:53.683 回答
0

我知道这是一个老问题,但这个问题仍然出现在谷歌搜索结果的第一页上twilio asr

这是一个无耻的插件,但我们公司 Voicegain 开发了一个识别器,其工作方式非常类似于 Nunance ASR(以 GRXML 语法为例),并且还提供了 Twilio Media Streams 集成,可以轻松用作 Twilio 的 ASR。与使用 Google STT 和 Twilio 相比的优势在于,我们的识别器本身使用语法,因此在特定用例上准确度可能比 Google STT 高得多,而且我们的识别器支持完全超时,即它知道语法匹配并且将从较长的不完整超时切换到较短的完整超时。

见这里:www.voicegain.ai/post/announcing-twilio-twiml-connect-stream-support

于 2020-10-05T13:50:29.890 回答