在 Vista 上使用 Microsoft 的 SAPI 5.3 Speech API,您如何以编程方式对 RecoProfile 进行声学模型训练?更具体地说,如果您有一个文本文件和一个用户说出该文本的音频文件,您将使用该文本和音频进行什么 SAPI 调用序列来训练用户的配置文件?
更新:
关于这个问题的更多信息我还没有解决:你在“开始”调用 ISpRecognizer2.SetTrainingState( TRUE, TRUE ),在“结束”调用 ISpRecognizer2.SetTrainingState( FALSE, TRUE )。但目前还不清楚这些行动何时必须相对于其他行动发生。
例如,您必须进行各种调用以使用与您的音频匹配的文本来设置语法,并进行其他调用以连接音频,以及对各种对象进行其他调用以说“你现在可以开始了”。但是什么是相互依存关系——在发生什么之前必须发生什么?如果您使用音频文件而不是系统麦克风进行输入,这是否会使相对时间不那么宽容,因为识别器不会一直坐在那里听,直到扬声器正确?