如果音频的采样率和位深度与系统的训练数据匹配,则识别结果最好。
那么,有没有人知道 Microsoft Speech Platform 中使用的确切采样率和/或位深度(和/或立体声/单声道)(如果这很重要,是最新的)?如果是这样,你还记得你是从哪里得到这些信息的吗?
请注意,我使用的是 MS Speech Platform,而不是 SAPI。除非两者都使用相同的训练数据,否则这不是相同的 AFAIK。准确地说 - 我使用这个:http: //msdn.microsoft.com/en-us/library/microsoft.speech.recognition.speechrecognitionengine.setinputtowavefile%28v=office.14%29.aspx
我的第一次尝试是基于页面上给出的 C++ 代码示例。