4

我一直在尝试修改 Levenshtein Distance 函数,以便它可以找到两条线之间的距离,或 xy 坐标集(换句话说,线的相似或不同,而不是它们的几何距离)。我遇到了一些问题。我知道您如何使用上面的值来获得删除成本,而左边的值是为了获得加法,但是在替换过程中我试图使用欧几里得距离,它对我不起作用。

如果你能指出我做错了什么,那就太棒了。

这是javascript中的相关代码:

padlock.dtw = {
    _deletionCost: 1,
    _insertionCost: 1,
    levenshtein: function(a,b){
        var l1 = a.length, l2 = b.length;
        if (Math.min(l1, l2) === 0) {
            return Math.max(l1, l2);
        }
        var i = 0, j = 0, d = [];
        for (i = 0 ; i <= l1 ; i++) {
            d[i] = [];
            d[i][0] = i;
        }
        for (j = 0 ; j <= l2 ; j++) {
            d[0][j] = j;
        }
        for (i = 1 ; i <= l1 ; i++) {
            for (j = 1 ; j <= l2 ; j++) {
                d[i][j] = Math.min(
                    d[i - 1][j] + this._deletionCost, /* deletion */
                    d[i][j - 1] + this._insertionCost, /* addition */
                    d[i - 1][j - 1] + (a[i - 1] === b[j - 1] ? 0 : this.euclideanDistance(a[i-1], b[j-1])) /* substitution, use euchlidean distance as cost */
                );
            }
        }
        this._debugPrintMatrix(d);
        return d[l1][l2];
    },
    euclideanDistance: function(a, b){
        var xd = a[0]-b[0];
        var yd = a[1]-b[1];
        return Math.abs(Math.sqrt(Math.pow(xd, 2) + Math.pow(yd, 2)));
    },
    _debugPrintMatrix: function(m){
        for(var i=0;i<m.length;i++){
            console.log.apply(this, m[i]);
        }
    }
}

样本输出:

>>> padlock.dtw.levenshtein( [ [1,1], [0,9], [3,3], [4,4] ], [ [1,1], [2,2], [3,3], [4,4] ] )

Distance Matrix:
0 1 2                 3 4
1 0 1                 2 3
2 1 2                 3 4
3 2 2.414213562373095 2 3
4 3 3.414213562373095 3 2

Final Distance: 2
4

3 回答 3

1

如果我正确理解了您的问题,那么您应该完全删除用于计算两点之间欧几里德距离的代码!

首先,让我重申你的问题:

你有两组点,例如

A = [ [1,1], [0,9], [3,3], [4,4] ]
B = [ [1,1], [2,2], [3,3], [4,4] ]

您尝试计算这两组之间的 levenshtein 距离。你用“点”代替“字母”。

到目前为止,这是有道理的。只需用点替换 levenshtein 算法中的“字母”,就完成了!

但是您犯了一个错误:原始的 Levenshtein 算法不计算两个字母之间的距离,例如距离(a,b)=1 或距离(a,d)=3。

你试图用这样的东西来扩展算法(使用 euclideanDistance() 函数)。但是 levenshtein 算法不适用于此类事情。如果你仔细观察它,你会发现它不起作用(矩阵中的值是有意义的,并且每次循环迭代都使用矩阵中在前一次迭代中计算的值)。

Levenshtein 距离是编辑距离,没有几何距离。您尝试更改它,以便它计算编辑和几何距离的混合。恕我直言,这种混合毫无意义,既无用又错误。

结论

要计算两组 xy 坐标的 levenshtein 距离,您应该将 euclidianDistance() 替换为简单的等式比较 ( a[0]==b[0] && a[1]==b[1])。

然后 levenshtein 算法会给你一个“编辑距离”。

于 2010-01-18T15:07:57.400 回答
0

使用几何计算两条线之间的距离不是更聪明吗?或者是否有特定的原因您不想使用它。

由于两条线总是有一个交点,除非它们是平行的(编辑,谢谢),很容易计算最小距离:即 0 或插入一些数学,可以在 google 上找到

于 2010-01-17T22:48:16.033 回答
0

我不明白您为什么要为此使用 Levenshtein,看来您可以从简单的计算中获得更好的结果。

  • 要找到线的角度差异,您可以简单地找到每条线的角度 (arctan((x_1-x_2)/(y_1-y_2))) 并减去它们。
  • 要找到线的平均距离,您可以简单地使用距离公式与每条线的第一个点和每条线的第二个点一起计算这些距离的平均值。

除此之外(除非你的线条是 3D 的),没有其他东西可以真正“比较”它们。

也许我误解了。您是否要比较行的字符串值?

于 2010-01-18T14:39:16.513 回答