我有一个关于cluster kmeans
在 Stata 中使用命令的问题。我正在使用该软件的第 13 版。
我认识到,要在使用cluster
命令时获得一致的分组,必须在命令之前设置种子。我的问题是,为什么当我设置不同的种子并运行相同的cluster
命令时,产生的分组在组成上完全不同?我通过在另一个上运行一个交叉表来收集这一点,例如tab _clus_1 _clus_2
,每个聚类都是在不同的集合种子之后生成的,并且看到许多案例以不同的方式分组。
由于我对命令使用的算法知之甚少cluster
,这让我担心正在创建的分组变量的稳健性。我正在使用一个包含 616 个观察值的数据集,并为集群命令提供 41 个变量,其中许多变量要么是虚拟变量 (0/1),要么在 0 到 1 之间的范围内,所以我想知道这种缺乏变化是否会导致每次我将种子设置为不同的数字时,都会生成非常不同的分组。