考虑多个(至少两个)不同的音频文件,例如几个不同的混音或混音。我天真地说,必须有可能检测到两个或多个文件中几乎相等的样本,尤其是人声,当然只有这样,如果人声样本没有被修改、拉伸、音调、混响太多等等
那么用什么样的算法或技术可以做到这一点呢?比方说,用户会尝试在所有文件中尽可能设置时间标记,这些时间标记描述要比较的数据窗口,包含大概相等的声音、人声等。
我知道没有直接的方法,尝试以任何方式直接比较 wav 数据是有用的。但是,即使我有频域数据(例如来自 FFT),我也必须使用一种比较算法,这种算法通过时间尺度来改变比较窗口,因为我不能假设我想找到的样本是时间同步的在所有文件中。
在此先感谢您的任何建议。