spss - SPSS - 在因子分析后使用 K 均值聚类

Question

我是一名开发人员，负责研究如何使用 SPSS 收集以前的结果，因此我们可以使用一些新数据重复该过程。我们不能问做原始分析的人，因为他很遗憾不再和我们在一起，所以我有责任去解开他的所作所为。

我不是统计学家，不需要了解所涉及的原理。我真的只需要知道要导航到哪些菜单项。

我们完成了一项调查，向 10,000 人提出了很多问题。其中 15 个问题的子集用于分析。

我知道进行了因子分析以将数据减少到 4 组。然后使用 K-means 聚类来寻找聚类中心。这就是我现在所追求的。

我已经研究出如何进行因子分析以获取与我的数据库中的数据相匹配的分量得分系数矩阵。这是通过转到分析 > 降维 > 因子来完成的。然后我从“提取”部分选择固定数量的因子（4），从“旋转”部分选择“Varimax”旋转，并检查“分数”部分中的“显示因子得分系数矩阵”。

这给出了这样的数据：

矩阵 值 1 值 2 值 3 值 4 
Q1        -0.0756 0.2134 -0.0245 -0.1236
 Q2        ... ... ... ...
 Q3        ... ... ... ...
...

我不知道如何继续进行 k-means 聚类。

我在数据库中的结果如下所示：

集群中心 值 1 值 2 值 3 值 4 值 5 
FAC1_1             -0.8373 -0.5766 0.2100 1.3499 0.2940
 FAC2_1             ... ... ... ... ...
 FAC3_1             ... ... ... ... ... . ..
 FAC4_1             ... ... ... ... ...

现在，我知道可以使用分析 > 分类 > K-means Cluster 对原始数据集进行 k-means 聚类，但我不知道如何参考我所做的因子分析。

有人能给我一些关于如何使用 SPSS 创建这些集群中心的见解吗？

score 4 · Accepted Answer

在 FACTOR 分析的 GUI（分析 > 降维 > 因子）中，您有一个子对话框“分数”，确保选中“另存为变量”。

这将保存数据中的因子分数，即变量 FAC1_1、FAC2_1、FAC3_1、FAC4_1。

然后您需要将这些变量作为输入变量添加到 K-means GUI 中。

最好以语法设置您的工作，这样如果其他人想要复制您的工作，他们可以这样做（理想情况下，您的前任也应该在语法文档中留下他的面包屑。我会尽一切努力找到这个文件，如果它存在的可能性很小，一个 .sps 文件扩展名的文件）。

以下是您如何在语法中设置它以及他/她的工作方式可能是什么样子：

/* Replicate the factor analysis (four factors) and save the factor score variables */.
FACTOR
  /VARIABLES < INPUT THE 15 VARIABLES HERE >
  /MISSING LISTWISE 
  /ANALYSIS < INPUT THE 15 VARIABLES HERE >
  /PRINT EXTRACTION ROTATION FSCORE
  /FORMAT SORT BLANK(.10)
  /PLOT ROTATION
  /CRITERIA FACTORS(4) ITERATE(25)
  /EXTRACTION PC
  /CRITERIA ITERATE(25)
  /ROTATION VARIMAX
  /SAVE REG(ALL)
  /METHOD=CORRELATION.

 /* Replicate the clustering using factor scores as inputs, generating 5 segments */.
QUICK CLUSTER FAC1_1 FAC2_1 FAC3_1 FAC4_1
  /MISSING=LISTWISE
  /CRITERIA=CLUSTER(5) MXITER(10) CONVERGE(0)
  /METHOD=KMEANS(NOUPDATE)
  /SAVE CLUSTER (Seg5)
  /PRINT INITIAL.

/* Check centroids match*/.
MEANS FAC1_1 FAC2_1 FAC3_1 FAC4_1 BY Seg5 /CELLS MEAN.

如果您可以复制 FACTOR 得分变量以完全匹配，那么这是一个好的开始，如果质心不匹配，那么考虑到因子得分确实匹配，那么它只能/最有可能是因为段分配现在不同的。尽管如果案例排序与以前不同，则使用相同的输入/方法，K-Means QUICK CLUSTER 可以并且很可能由于随机起点产生不同的段分配。

我不知道如何解决这个问题，但原则上这些是他/她可能采取的步骤。

score 1 · Accepted Answer

我为我的一个项目做了同样的分析。首先进行因子分析，一旦您能够从因子分析中提取大量方差，请尝试保存因子分数（在 SPSS 中）。

要保存因子分数，请转到分析->降维->因子->分数->另存为变量。

当您保存分数时，将在变量视图中创建基于组件数量的新变量。

在您能够保存因子的分数后，转到 Analyse->Classify->K-Means 并选择新变量（Factors Scores）输入所需的初始聚类数，然后确定。

score 0 · Accepted Answer

如果您有权访问完成原始工作的系统，请查找日志文件（通常命名为 statistics.jnl 并保存在 Edit > Options > Files 下指定的位置）。如果日志功能通过 append 选项生效，它将包含用户运行的所有命令。

score 0 · Accepted Answer

我正在为一个项目做同样的分析。仅供参考，SPSS 提供的两步聚类过程比 K-means 更稳健（Punj & Stewart 1983）。在 K-means 中，您将如何选择 K？！如果您坚持使用 K-means，您也可以使用 clvalid 包来获得 K 的最佳数量。

Punj, G. 和 Stewart, DW (1983)。营销研究中的聚类分析：回顾与应用建议。营销研究杂志，134-148。

spss - SPSS - 在因子分析后使用 K 均值聚类

4 回答 4

Related

Reference