我正在开发一个程序,该程序应记录可识别的音频,以便以后可以轻松地将其与其他音频文件进行比较。音频文件将包含类似语音的内容,所以我想知道什么会更容易做:
- 实现语音识别算法并保存/比较输出,
- 或实施/创建一种算法,使用例如快速傅里叶变换创建类似音频指纹的东西并进行比较?
有人在这方面有经验吗?我想知道第二种解决方案是否会在相对较短的时间内实现。也许有一个不太难编码的解决方案,我只是没有找到它?
我正在开发一个程序,该程序应记录可识别的音频,以便以后可以轻松地将其与其他音频文件进行比较。音频文件将包含类似语音的内容,所以我想知道什么会更容易做:
有人在这方面有经验吗?我想知道第二种解决方案是否会在相对较短的时间内实现。也许有一个不太难编码的解决方案,我只是没有找到它?
看看声学指纹,大部分代码都可以在 github 上找到!它应该可以帮助您解决问题,更具体地说是https://github.com/lalinsky/chromaprint/tree/master/tools
有关更多信息,请查看此线程,该主题已被广泛介绍,开源音频模式识别(指纹)和创建自定义语音命令(GNU/Linux)