0

如果音频的采样率和位深度与系统的训练数据匹配,则识别结果最好。

那么,有没有人知道 Microsoft Speech Platform 中使用的确切采样率和/或位深度(和/或立体声/单声道)(如果这很重要,是最新的)?如果是这样,你还记得你是从哪里得到这些信息的吗?

请注意,我使用的是 MS Speech Platform,而不是 SAPI。除非两者都使用相同的训练数据,否则这不是相同的 AFAIK。准确地说 - 我使用这个:http: //msdn.microsoft.com/en-us/library/microsoft.speech.recognition.speechrecognitionengine.setinputtowavefile%28v=office.14%29.aspx

我的第一次尝试是基于页面上给出的 C++ 代码示例。

4

2 回答 2

0

Microsoft.Speech SR 引擎不需要训练(与 System.Speech SR 引擎不同),并且对采样率相对不敏感(适用于任何大于 8 KHz 的采样率)。16 位音频是首选,但我相信它适用于 8 位音频。

于 2013-08-10T16:35:29.710 回答
0

我找不到有关采样率的任何信息,但似乎位深度实际上是 8 位(也许自从Eric Brown 的回答以来这已经改变了)。

从这个页面引用列出支持的音频格式:

语音平台对大于 8 位分辨率的音频进行下采样。

您应该可以提供任何 8 位倍数的位深度(无论如何总是如此),因为不会由于舍入而导致精度损失(并且与采样率不同,分辨率不会出现混叠)。

于 2018-01-03T11:13:59.277 回答