speech-recognition - Microsoft 语音平台 - 采样率和位深度

Question

如果音频的采样率和位深度与系统的训练数据匹配，则识别结果最好。

那么，有没有人知道 Microsoft Speech Platform 中使用的确切采样率和/或位深度（和/或立体声/单声道）（如果这很重要，是最新的）？如果是这样，你还记得你是从哪里得到这些信息的吗？

请注意，我使用的是 MS Speech Platform，而不是 SAPI。除非两者都使用相同的训练数据，否则这不是相同的 AFAIK。准确地说 - 我使用这个：http: //msdn.microsoft.com/en-us/library/microsoft.speech.recognition.speechrecognitionengine.setinputtowavefile%28v=office.14%29.aspx

我的第一次尝试是基于页面上给出的 C++ 代码示例。

score 0 · Accepted Answer

Microsoft.Speech SR 引擎不需要训练（与 System.Speech SR 引擎不同），并且对采样率相对不敏感（适用于任何大于 8 KHz 的采样率）。16 位音频是首选，但我相信它适用于 8 位音频。

score 0 · Accepted Answer

我找不到有关采样率的任何信息，但似乎位深度实际上是 8 位（也许自从Eric Brown 的回答以来这已经改变了）。

从这个页面引用列出支持的音频格式：

语音平台对大于 8 位分辨率的音频进行下采样。

您应该可以提供任何 8 位倍数的位深度（无论如何总是如此），因为不会由于舍入而导致精度损失（并且与采样率不同，分辨率不会出现混叠）。

2 回答 2