是否有任何已知的音高检测算法来检测代表复调音乐的音频中的多个特定音符?
我看到的所有用于复调音乐的算法,如 MUSIC 或 ESPRIT,都集中在开放式域上,你不知道音频包含哪些音高,并试图使用算法来检测它们。这是可以理解的一个非常困难的问题。
相反,我对一个更受限制的域感兴趣,在那里你会得到一个包含 2-6 个特定注释的列表,你需要检查这些注释是否存在于音频中。我认为这将是一个更容易的问题,尽管仍然不是微不足道的,但是我在查找有关该主题的代码或学术论文时遇到了麻烦。
我的领域是一个应用程序,音乐家将在他们的乐器上演奏特定的音符,程序会向他们提供反馈,表明他们正确地演奏了这些特定的音符。
我目前正在使用一些 NodeJS 和 C++ 代码来执行此操作,而我目前的(幼稚)方法是:
- 计算 FFT,并根据所有标准音高的频率范围对频率进行分级。
- 计算所有频率的中值幅度以用作噪声过滤的阈值 (T)。幅度低于此的任何频率我都忽略为背景噪声。
- 对于我正在搜索的每个音符,我计算前 3 个谐波的频率,查找每个频率的幅度,如果它们都高于平均值,那么我假设该音符存在。
这有点工作,但我遇到的问题是校准 T 阈值。如果它太高,它就会变得过于挑剔,并且不会检测到任何音符,除非它们非常响亮。如果它太低,它的辨别力不够,它会返回误报。
潜在的困难在于,对于许多乐器来说,这些音符的谐波幅度并没有一致的模式。有些具有很大的基波,随后的每个谐波都会迅速减弱。一些低音音符几乎没有基音,而其他泛音则非常缓慢地减弱。因此,当我发现 T 阈值适用于高音时,它不适用于低音,反之亦然。
而且由于我使用中值幅度来进行噪声过滤,当两个音符以不相等的音量一起演奏时,较大的音符可能会导致较柔和的音符被过滤掉,即使较柔和的音符仍然比任何其他音高响亮得多在 FFT 中。很难找到任何甜蜜点。
在这种情况下我应该使用任何信号处理或滤波技术来提高准确性吗?