我有一个我正在使用的 300x5000 的矩阵,我想测试哪个距离计算参数最有效。我得到以下结果:
'Sqeuclidean' = 17 次迭代,距离总和 = 25175.4
“相关性” = 9 次迭代,距离总和 = 32.7
'Cityblock' = 34 次迭代,距离总和 = 105175.3
'余弦' = 11 次迭代,距离总和 = 11.9
我无法理解为什么结果变化如此之大以及如何选择最有效的距离参数。有什么建议吗?
编辑:
我有 300 个功能,每个功能有 5000 个实例。该函数如下所示:
[idx, ctrs, sumd, d] = kmeans(matrix, 25, 'distance', 'cityblock', 'replicate', 20)
通过交换距离参数。这些特征已经标准化。
谢谢!