2

我在我的数据集的样本上计算了 PCA 并保留了前两个分量向量。然后我在 k=3 的前两个分量上计算了 k-means 聚类。现在我需要用前两个特征函数(来自 PCA)和基于集群组的颜色绘制一个 2D 散点图。我用散点图完成了所有工作,但是当我查看该图时,我无法区分哪些样本是聚类的,所以我想将样本标签添加到散点图中的点。有人可以建议我怎么做吗?

tdata<-t(subdata)
pca <- prcomp((tdata),cor=F)
dat.loadings <-pca$x[,1:2]
cl <- kmeans(dat.loadings, centers=3)
pca1 <-pca$x[,1]
pca2 <-pca$x[,2]
plot(pca1, pca2,xlab="PCA-1",ylab="PCA-2",col=cl$cluster)

谢谢

4

1 回答 1

3

这可以简单地使用 ggplot 来完成。我将使用 mtcars 数据,因为我无权访问您当前使用的数据集。无论如何,这个想法应该很清楚。

library(ggplot2)
pca <- prcomp((mtcars),cor=F)
dat.loadings <-pca$x[,1:2]
cl <- kmeans(dat.loadings, centers=3)
pca1 <-pca$x[,1]
pca2 <-pca$x[,2]
#plot(pca1, pca2,xlab="PCA-1",ylab="PCA-2",col=cl$cluster)
mydf<-data.frame(ID=names(pca1),PCA1=pca1, PCA2=pca2, Cluster=factor(cl$cluster))
ggplot(mydf, aes(x=PCA1, y=PCA2, label=ID, color=Cluster)) + 
       geom_point() + geom_text(size = 4, colour = "black", vjust = -1)

这为您提供了每个数据点的名称输出。

结果图

于 2013-08-07T14:41:59.617 回答