statistics - 如何选择合适的距离函数

Question

这可能是一个微不足道的问题。我们如何为特殊的高维数据集选择一个好的距离函数？我读过一些距离函数，如欧几里德距离，在高维数据中效果不佳。如果那不能给我们一个很好的距离测量，那么什么功能可以呢？

score 2 · Accepted Answer

它来自维度的诅咒，基本上是随着维度的增加，空间变得更加空虚。

最佳距离测量高度依赖于数据，但我建议对 minkowsky 距离使用低 p 值进行交叉验证

mikowsky_distance = sum_i(|u_i-v_i|^p)^(1/p)

p=1 即曼哈顿距离 (L1) 在大多数高维情况下比使用欧几里得 (L2) 更好，并且非常容易测试。还可以尝试取较小的值，例如 1/4，看看会发生什么。您也可以尝试使用 limit p-> -inf ，即 min-dstance min(|u_i-v_i|)。p 值越低，与匹配度越低的维度相比，相似度最高的维度对它的权重就越大。

我建议阅读论文

http://www-users.cs.umn.edu/~kumar/papers/siam_hd_snn_cluster.pdf

触及主题。

statistics - 如何选择合适的距离函数

1 回答 1

Related

Reference