我致力于将音符与数字音频进行比较的应用程序。我的第一个想法是使用一些复音音高算法分析 wav 文件(或实时声音),并从该文件中获取音符和和弦,然后与数据集中的音符进行比较。我浏览了很多页面,这似乎是一项艰巨的工作,因为现有的实现和算法主要/仅关注单声道声音。
现在,我想到了以相反的方式来做这件事。在数据集中,我有例如注释:A4 或更好的示例和弦:A4 B4 H4。我的想法是从这个音符或和弦中产生一些波浪(或任何我不知道的东西),然后与一段数字音频进行比较。
这是个好主意吗?它是更好/更难的解决方案吗?如果是的话,你能推荐我怎么做吗?