我想使用动态时间扭曲来比较两个音频记录的两个特征向量(当然我首先要做所有必要的预处理)。我的程序应该以百分比输出两个录音之间的相似度。例如 100% 意味着两个录音完全相同,录音的差异越大,我得到的数字就越小。我该如何解决?DTW 只给我路径的长度或转换的成本,我不知道如何将这些数字之一转换为百分比值。
问问题
3126 次
1 回答
5
我不知道以百分比衡量的信号之间的任何距离度量。如果有 100% 的含义,那么一定有 0% 的含义。所以首先你需要问自己:0% 是什么意思?
对于DTW,我很确定没有将最小距离转换为“百分比匹配”。如果必须,则需要定义一个启发式量,它是最小 DTW 距离的函数。
编辑:实际上,如果你有两个有限长度的录音,你可以定义一个最长的距离。那将是一条路径的距离(如果查看成本矩阵)一直向右然后向下,或者一直向下然后向右。最佳路径,即完美匹配,沿着主对角线。
一个简单的想法:如果使用 (0,1) (1,0) (1,1) 作为候选步骤,您可以使用 (0,1) 和 (1,0) 所采取的步骤数作为衡量坏处。这个度量当然有一个最大值和一个最小值,所以它可以映射到一些理想的范围,比如 0-100%。
于 2010-02-08T01:51:25.463 回答