我正在使用 k-means 算法对我的数据进行聚类。我有 5000 个样本。.(我的每个样本都是关于一个客户的。为了分析客户价值,我将根据 4 个行为特征对它们进行聚类。)使用欧几里德度量和 Pearson 相关性计算距离。
我需要知道
我不知道欧几里得距离是计算距离或皮尔逊相关的正确方法吗?我正在使用剪影来验证我的聚类。当我使用 Pearson 相关性轮廓值时,比使用欧几里得度量时要多。这是否意味着皮尔逊相关更适合距离度量?
我正在使用 k-means 算法对我的数据进行聚类。我有 5000 个样本。.(我的每个样本都是关于一个客户的。为了分析客户价值,我将根据 4 个行为特征对它们进行聚类。)使用欧几里德度量和 Pearson 相关性计算距离。
我需要知道
我不知道欧几里得距离是计算距离或皮尔逊相关的正确方法吗?我正在使用剪影来验证我的聚类。当我使用 Pearson 相关性轮廓值时,比使用欧几里得度量时要多。这是否意味着皮尔逊相关更适合距离度量?
它基于方差最小化,对应于(平方)欧几里得距离。
使用 Peason 相关性,它将严重失败。
有关 k-means 如何在 Pearson 中严重失败的示例,请参见此答案:
https://stackoverflow.com/a/21335448/1060350
简短总结:均值不适用于 Pearson,但 k-means 是基于计算均值的。使用 PAM 或类似的方法来代替使用 medoids。