1

我目前正在评估语音识别 (SR) 技术的 cyrrebt 状态,似乎有不少 API 和服务如雨后春笋般涌现。

我自己对 SR 的经验是,关键字匹配适用于多个说话者,而听写在非常受控的环境中对训练有素的说话者也很有效。这仍然是真的吗?是否有任何好的方法可以对任意音频文件的文本进行语音 - 可能是从音频流中匹配关键字以进行索引,或者可能是尝试完全转录。

有人对细微差别与其他引擎与开源解决方案的比较有任何评论吗?

4

1 回答 1

3

虽然围绕语音识别设计的更新和更友好的应用程序将继续被编写,但语音识别本身已经达到了一堵墙。即使是最好的引擎的准确性也会在存在噪音的情况下迅速下降,这对于经常在嘈杂环境中使用该技术的智能手机用户来说是一个大问题。

一个更大且相关的问题是语音识别器无法从一屋子的声音中识别出一个声音(鸡尾酒会问题),这是大多数人相对容易处理的问题。除非有人解决这个问题,否则语音识别技术恐怕不会有太大进步。这是一个十亿美元的问题,因为一个解决方案将使每个现有的语音识别引擎几乎在一夜之间过时。

于 2012-09-07T15:39:18.093 回答