我正在为个人项目寻求建议。
我正在尝试创建一个用于创建自定义语音命令的软件。目标是允许用户/我记录一些音频数据(2/3 秒)以定义命令/宏。然后,当用户说话(录制相同的音频数据)时,将执行命令/宏。该软件必须能够在低成本计算机(例如 RaspberryPi)中在不到 1 秒的处理时间内检测到命令。
我已经通过两种方式进行了搜索: - 语音识别(CMU-Sphinx,Julius,simon):有很好的开源解决方案,但它们通常需要大型数据库文件,而语音识别并不是我真正想要做的。对于一个小功能,语音识别可能会消耗过多的电量。- 音频指纹(Chromaprint -> http://acoustid.org/chromaprint):这似乎是我要找的。原理是从原始音频数据创建指纹,然后比较指纹以确定它们是否相同。但是,这种软件/库似乎是为歌曲识别而设计的(如智能手机上的著名软件):我正在尝试配置一个好的“比较器”,但我认为我的做法很糟糕。
你知道一些专门的软件或代码包做类似的事情吗?
任何建议将不胜感激。