1

我有一个数据集,我想在其上使用 k-means 进行聚类。
作为之前的任务,我对这些数据运行 PCA,并确定了代表我数据集几乎 90% 信息的两个组件。我想可视化这两个组件以得出一些见解。

pca = PCA(n_components=2)
data_trans = pca.fit_transform(data)
plt.scatter(data_trans[:, 0], data_trans[:, 1])

在此处输入图像描述

接下来,我尝试从转置矩阵可视化相同的转换数据

pca = PCA(n_components=2)
data_trans = pca.fit_transform(data.T)
plt.scatter(data_trans[:, 0], data_trans[:, 1])

在此处输入图像描述

最后一个图是否表明我的数据中可能有 6 个集群?如果有的话,我可以从这两张图中得出什么结论?

4

1 回答 1

1

您看到的 6 个点不是集群。

它们是您的输入维度。

因为您使用了转置矩阵。

判断上面的情节,我怀疑聚类会在那里找到任何有意义的东西。异常值和一大​​块是情节包含的内容。

于 2015-11-28T13:01:36.083 回答