1

我有一个关于cluster kmeans在 Stata 中使用命令的问题。我正在使用该软件的第 13 版。

我认识到,要在使用cluster命令时获得一致的分组,必须在命令之前设置种子。我的问题是,为什么当我设置不同的种子并运行相同的cluster命令时,产生的分组在组成上完全不同?我通过在另一个上运行一个交叉表来收集这一点,例如tab _clus_1 _clus_2,每个聚类都是在不同的集合种子之后生成的,并且看到许多案例以不同的方式分组。

由于我对命令使用的算法知之甚少cluster,这让我担心正在创建的分组变量的稳健性。我正在使用一个包含 616 个观察值的数据集,并为集群命令提供 41 个变量,其中许多变量要么是虚拟变量 (0/1),要么在 0 到 1 之间的范围内,所以我想知道这种缺乏变化是否会导致每次我将种子设置为不同的数字时,都会生成非常不同的分组。

4

1 回答 1

0

如果您要聚类的变量都是二元或因子变量,您可能会使用潜在类聚类找到更稳定的解决方案。

Stata 可以通过 (1) Sophia Rabe-Hesketh 的程序并在 Stata 内的 SSC 上可用,或 (2) http://methodology.psu.edu/downloads/lcastatagllamm上的 Stata 的 LCAplugin执行潜在类分析,即仅适用于 Windows 平台。

尽管由于最大矩阵大小限制(即 800),LCAplugin 不适用于 Stata/IC,但它应该可以解决您的问题,因为如果您只有 616 个案例和 41 个变量set matsize 800。如果你有更高版本的 Stata(例如 SE 或 MP),LCAplugin 不应该被那些最大矩阵大小限制所困扰。

于 2013-10-01T16:58:36.963 回答