我正在构建一个需要语音激活命令的网络应用程序。我正在使用 getUserMedia 作为音频输入。
对于语音激活命令,过程是用户需要通过录制他/她的语音来“校准”命令。例如,对于“停止”命令,用户会说出“停止”一词,然后应用程序将保存音频片段。然后用户发出“停止”命令,他/她会说出“停止”这个词。
现在的问题是,有没有办法比较/识别用户从他/她之前“校准”/记录的预先录制的音频命令发出的命令(音频输入)?换句话说,比较来自另一个音频(文件)的音频流。希望任何人都可以指出我正确的方向,因为我已经为此研究了很长时间。
提前致谢。
注意:我不会像 SoundHound 那样比较/识别音乐。另外,我认为我不需要语音识别,这对于我需要的机制来说太复杂和不必要了。显然,如果没有语音识别,这即使不是不可能也很难做到。谁能推荐一个我可以试用的语音识别库/API(希望是 javascript)?