我对 shazam 或 soundhound 的工作方式很感兴趣。
它如何记录声音并制作与他们的指纹数据库非常相似的指纹以找到匹配项?
我即将开始用 C/C++ 编写一些软件,但不确定要使用哪些库,看到有一些来自 Microsoft 的 Speech SDK。您是否有一些建议,从哪里开始“理解”分析语音和播放语音的过程?
我会感谢您分享的每一个提示或想法:]
我对 shazam 或 soundhound 的工作方式很感兴趣。
它如何记录声音并制作与他们的指纹数据库非常相似的指纹以找到匹配项?
我即将开始用 C/C++ 编写一些软件,但不确定要使用哪些库,看到有一些来自 Microsoft 的 Speech SDK。您是否有一些建议,从哪里开始“理解”分析语音和播放语音的过程?
我会感谢您分享的每一个提示或想法:]
您可以查看一些现有的软件:
音频数据库:C++
善变的回购:http ://code.soundsoftware.ac.uk/projects/audiodb/
Sonic Visualiser:SV 库是使用 Qt4 用 C++ 编写的