假设我们有一个大维度的数据集,我们使用 PCA 将其减少到较低维度,然后对所述数据使用聚类算法是否明智/准确?假设我们不知道预期有多少集群。
在 Iris 数据集上使用 PCA(对 csv 中的数据进行排序,以便列出所有第一类,然后是第二类,然后是第三类)产生以下图:-
可以看出,鸢尾花数据集中的三个类都得到了保留。但是,当样本的顺序随机化时,会产生以下图:-
以上,尚不清楚数据集中包含多少个集群/类。在这种情况下(更现实的情况),如何确定类的数量,诸如 K-Means 之类的聚类算法是否有效?
由于丢弃了低阶主成分,会不会有不准确之处?
编辑:- 明确地说,我在问是否可以在运行 PCA 后对数据集进行聚类,如果可以,最准确的方法是什么。