微软似乎提供了不少语音识别产品,我想知道它们之间的区别。
有Microsoft Speech API或 SAPI。但不知何故,微软认知服务语音 API具有相同的名称。
现在好了,Azure 上的 Microsoft Cognitive Service 提供Speech service API和Bing Speech API。我假设对于语音到文本,两个 API 是相同的。
然后是System.Speech.Recognition(或 Desktop SAPI)、Microsoft.Speech.Recognition(或 Server SAPI)和Windows.Media.Speech.Recognition。这里和这里对三者之间的区别进行了一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型,也不是神经网络模型,这三个模型都可以在没有互联网连接的情况下离线使用,对吧?
对于 Azure 语音服务和必应语音 API,它们是更高级的语音模型,对吧?但我认为没有办法在我的本地机器上离线使用它们,因为它们都需要订阅验证。(即使 Bing API 似乎有一个C# 桌面库..)
本质上,我希望为我的对话数据(每次录音 5-10 分钟)提供一个离线模型,它可以识别多说话者并输出时间戳(或时间编码输出)。我现在对所有选项都感到有些困惑。如果有人可以向我解释,我将不胜感激,非常感谢!