1

我正在构建一个需要语音激活命令的网络应用程序。我正在使用 getUserMedia 作为音频输入。

对于语音激活命令,过程是用户需要通过录制他/她的语音来“校准”命令。例如,对于“停止”命令,用户会说出“停止”一词,然后应用程序将保存音频片段。然后用户发出“停止”命令,他/她会说出“停止”这个词。

现在的问题是,有没有办法比较/识别用户从他/她之前“校准”/记录的预先录制的音频命令发出的命令(音频输入)?换句话说,比较来自另一个音频(文件)的音频流。希望任何人都可以指出我正确的方向,因为我已经为此研究了很长时间。

提前致谢。

注意:我不会像 SoundHound 那样比较/识别音乐。另外,我认为我不需要语音识别,这对于我需要的机制来说太复杂和不必要了。显然,如果没有语音识别,这即使不是不可能也很难做到。谁能推荐一个我可以试用的语音识别库/API(希望是 javascript)?

4

1 回答 1

0

没有语音识别就无法做到这一点,因为人类产生两个相同音频文件的机会远小于 0.000000000000000000000000021%。

您可能能够识别音高并将其与您的校准音频进行相当准确的比较,但要根据不是来自机器的简单音频比较来捕捉口语 -绝不,绝对不可能

您可以根据音高、音节之间的停顿长度、共振峰等的变化对某些单词/命令进行分类……但这些仍然是语音识别的第一步。

于 2015-05-22T10:23:24.613 回答