我正在研究一个非常基本的机器人项目,并希望在其中实现语音识别。我知道这是一件复杂的事情,但我只想为 3 或 4 个命令(或单词)做这件事。
我知道使用 wavin 我可以录制音频。但我希望对音频信号进行实时幅度分析,怎么做呢,波形将作为 8 位单声道输入。
我曾考虑将信号划分为一组特定时间,进一步将其划分为更小的子集,获取子集的平均 rms 值,然后将它们相加,然后查看它们与实际存储的信号有多大不同。如果错误低于所有(或大多数)集合的可接受值,然后打印该单词。
如何实施?如果您也可以提供任何其他建议,那就太好了。
提前致谢。