0

我在 SPSS 中对我的 100 条记录数据集应用了分层(凝聚)聚类。该规则说,'距离系数使较大的混乱点决定了集群的数量。

公式:没有案例 - 肘部步骤 = 没有集群我正在关注本教程“ http://www.mvsolution.com/wp-content/uploads/SPSS-Tutorial-Cluster-Analysis.pdf ”。问题是在我的输出中距离系数没有更大的跳跃那么我如何从中确定 k 的值?

当我计算距离系数的变化时,它出来了:

640-609= 31

671-640=31

711-671=40

755-711=44

800-755=45

846-800=46

900-846=54

962-900=62

1025-962=63

1091-1025=66

1160-1091=69

1233-1160=73

1305-1233=72

1379-1305=74

1460-1379=81

1543-1460=83

1630-1543=87

1728-1630=98

我需要 k 的值来应用 kmeans..

4

1 回答 1

0

在仅由单个集群组成的数据集上(或者当距离函数不起作用时),(通常)不会有膝盖

为什么不首先通过在一些玩具数据集上尝试来熟悉层次聚类呢?在一个聚集的 2D 数据集、一个统一的 2d 数据集和一个具有单个高斯集群的 2d 数据集上尝试它,以了解这些图的行为方式。

然后尝试相同的数据集,但通过将一维缩放 10000 来对它们进行反规范化。糟糕的规范化数据可以完全隐藏您感兴趣的结构!

于 2013-07-04T07:41:42.337 回答