2

这可能是一个微不足道的问题。我们如何为特殊的高维数据集选择一个好的距离函数?我读过一些距离函数,如欧几里德距离,在高维数据中效果不佳。如果那不能给我们一个很好的距离测量,那么什么功能可以呢?

4

1 回答 1

2

它来自维度的诅咒,基本上是随着维度的增加,空间变得更加空虚。

最佳距离测量高度依赖于数据,但我建议对 minkowsky 距离使用低 p 值进行交叉验证

mikowsky_distance = sum_i(|u_i-v_i|^p)^(1/p)

p=1 即曼哈顿距离 (L1) 在大多数高维情况下比使用欧几里得 (L2) 更好,并且非常容易测试。还可以尝试取较小的值,例如 1/4,看看会发生什么。您也可以尝试使用 limit p-> -inf ,即 min-dstance min(|u_i-v_i|)。p 值越低,与匹配度越低的维度相比,相似度最高的维度对它的权重就越大。

我建议阅读论文

http://www-users.cs.umn.edu/~kumar/papers/siam_hd_snn_cluster.pdf

触及主题。

于 2012-08-28T20:27:19.993 回答