我正在运行 kmeans 聚类来识别标记数据。我运行了 pca,然后运行了 kmeans,并使用 ggbiplot 得到了以下图:
现在,我如何确定哪个点属于表格格式的哪个组。也就是说,在我的原始数据中,我想用它的组来标记每个点。
我正在运行 kmeans 聚类来识别标记数据。我运行了 pca,然后运行了 kmeans,并使用 ggbiplot 得到了以下图:
现在,我如何确定哪个点属于表格格式的哪个组。也就是说,在我的原始数据中,我想用它的组来标记每个点。
假设您的数据框的名称是 df 并且您想要 k 个集群。运行 k 表示函数后...
# K-Means CA
fit <- kmeans(df, k) # where k is the number of clusters
...您必须包含从适合您的数据框中产生的组
# add clusters to the dataframe
df$clusters <- fit$cluster
df
a b clusters
1 -0.96193342 -0.7447816 1
2 -0.29252572 -1.1312186 1
3 0.25878822 -0.7163585 1
4 -1.15213189 0.2526524 1
5 0.19578283 0.1520457 1
6 0.03012394 -0.3076564 1
7 0.08541773 -0.9530173 1
8 1.11661021 -0.6482428 2
9 -1.21885742 1.2243136 1
10 1.26736872 0.1998116 2
示例中使用的数据
set.seed(3)
n <- 10
k <- 2
df <- data.frame(a= rnorm(n), b= rnorm(n))
你也可以看看这里。