javascript - 音频/语音比较和getUserMedia

Question

我正在构建一个需要语音激活命令的网络应用程序。我正在使用 getUserMedia 作为音频输入。

对于语音激活命令，过程是用户需要通过录制他/她的语音来“校准”命令。例如，对于“停止”命令，用户会说出“停止”一词，然后应用程序将保存音频片段。然后用户发出“停止”命令，他/她会说出“停止”这个词。

现在的问题是，有没有办法比较/识别用户从他/她之前“校准”/记录的预先录制的音频命令发出的命令（音频输入）？换句话说，比较来自另一个音频（文件）的音频流。希望任何人都可以指出我正确的方向，因为我已经为此研究了很长时间。

提前致谢。

注意：我不会像 SoundHound 那样比较/识别音乐。~~另外，我认为我不需要语音识别，这对于我需要的机制来说太复杂和不必要了。~~显然，如果没有语音识别，这即使不是不可能也很难做到。谁能推荐一个我可以试用的语音识别库/API（希望是 javascript）？

score 0 · Accepted Answer

没有语音识别就无法做到这一点，因为人类产生两个相同音频文件的机会远小于 0.000000000000000000000000021%。

您可能能够识别音高并将其与您的校准音频进行相当准确的比较，但要根据不是来自机器的简单音频比较来捕捉口语 -绝不，绝对不可能。

您可以根据音高、音节之间的停顿长度、共振峰等的变化对某些单词/命令进行分类……但这些仍然是语音识别的第一步。

1 回答 1