speech-recognition - Microsoft Speech 产品/平台之间的差异

Question

微软似乎提供了不少语音识别产品，我想知道它们之间的区别。

有Microsoft Speech API或 SAPI。但不知何故，微软认知服务语音 API具有相同的名称。
现在好了，Azure 上的 Microsoft Cognitive Service 提供Speech service API和Bing Speech API。我假设对于语音到文本，两个 API 是相同的。
然后是System.Speech.Recognition（或 Desktop SAPI）、Microsoft.Speech.Recognition（或 Server SAPI）和Windows.Media.Speech.Recognition。这里和这里对三者之间的区别进行了一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型，也不是神经网络模型，这三个模型都可以在没有互联网连接的情况下离线使用，对吧？
对于 Azure 语音服务和必应语音 API，它们是更高级的语音模型，对吧？但我认为没有办法在我的本地机器上离线使用它们，因为它们都需要订阅验证。（即使 Bing API 似乎有一个C# 桌面库..）

本质上，我希望为我的对话数据（每次录音 5-10 分钟）提供一个离线模型，它可以识别多说话者并输出时间戳（或时间编码输出）。我现在对所有选项都感到有些困惑。如果有人可以向我解释，我将不胜感激，非常感谢！

score 8 · Accepted Answer

一个困难的问题 - 也是它如此困难的部分原因：我们（微软）似乎提出了一个关于“语音”和“语音 api”的不连贯的故事。虽然我在微软工作，但以下是我对此的看法。我试图对我的团队中的计划提供一些见解（认知服务语音 - 客户端 SDK），但我无法预测不那么近的未来的所有方面。

微软很早就认识到语音是一种重要的媒介，因此微软在其产品中支持语音的历史悠久且广泛。有非常好的语音解决方案（具有本地识别）可用，您列出了其中的一些。

我们正在努力统一这一点，并为您提供一个地方，让您可以在 Microsoft 中找到最先进的语音解决方案。这是“微软语音服务”（https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/） - 目前处于预览阶段。

在服务方面，它将把我们的主要语音技术，如语音到文本、文本到语音、意图、翻译（和未来的服务）整合到一个保护伞下。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移（今年晚些时候），该 SDK 将在所有主要操作系统（Windows、Linux、Android、iOS）上可用，并支持主要编程语言。我们将继续增强/改进 SDK 的平台和语言支持。

这种在线服务和客户端 SDK 的组合将在今年晚些时候离开预览状态。

我们理解拥有本地识别能力的愿望。在我们的第一个 SDK 版本中，它不会“开箱即用”（它也不是当前预览版的一部分）。SDK 的一个目标是平台和语言之间的一致性（功能和 API）。这需要大量的工作。离线现在不属于这一部分，我无法在这里做出任何预测，无论是功能还是时间线......

所以从我的角度来看 - 新的语音服务和 SDK 是前进的方向。目标是在所有平台上统一 API，轻松访问所有 Microsoft 语音服务。它需要订阅密钥，它要求您已“连接”。我们正在努力在今年晚些时候让（服务器和客户端）都脱离预览状态。

希望这可以帮助 ...

沃尔夫冈

speech-recognition - Microsoft Speech 产品/平台之间的差异

1 回答 1

Related

Reference