r - 在K意味着使用R进行聚类后，检索最接近每个聚类质心的100个样本

Question

我试图通过首先在 R 中执行 K-means 聚类然后为每个代表性聚类采样 50-100 个样本以进行下游分类和特征选择来减少输入数据大小。

原始数据集被拆分为 80/20，然后 80% 进入 K 均值训练。我知道输入数据有 2 列标签和 110 列数值变量。从标签栏中，我知道有 7 种不同的药物治疗方法。同时，我测试了肘部方法以找到集群数量的最佳 K，它在 8 左右。所以我选择了 10，以便有更多的数据集群可供下游采样。

现在我已经完成了模型 <- Kmeans() 的运行，输出列表让我有点困惑该怎么做。由于我必须仅缩放数字变量以放入 kmeans 函数中，因此输出集群成员不再具有该处理标签。我可以通过将集群成员附加到原始训练数据表来克服这一点。

那么对于 10 个质心，我如何找出标签是什么？我不能只做

training_set$centroids <- model$centroids

最重要的问题是，我如何找到每个集群的 100 个样本，这些样本与各自的质心最接近？我在 python 中看到过一篇文章，但还没有 R 资源。使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本任何指针？

score 2 · Accepted Answer

首先，我们需要一个可重现的数据示例：

set.seed(42)
x <- matrix(runif(150), 50, 3)
kmeans.x <- kmeans(x, 10)

现在您想在原始数据x中找到最接近计算并存储为的质心的观测值kmeans.x。我们使用get.knnx()package 中的函数FNN。我们将只获得 10 个集群中每一个集群的 5 个最接近的观测值。

library(FNN)
y <- get.knnx(x, kmeans.x$centers, 5)
str(y)
# List of 2
#  $ nn.index: int [1:10, 1:5] 42 40 50 22 39 47 11 7 8 16 ...
#  $ nn.dist : num [1:10, 1:5] 0.1237 0.0669 0.1316 0.1194 0.1253 ...
y$nn.index[1, ]
# [1] 42 38  3 22 43
idx1 <- sort(y$nn.index[1, ])
cbind(idx1, x[idx1, ])
#      idx1                          
# [1,]    3 0.28614 0.3984854 0.21657
# [2,]   22 0.13871 0.1404791 0.41064
# [3,]   38 0.20766 0.0899805 0.11372
# [4,]   42 0.43577 0.0002389 0.08026
# [5,]   43 0.03743 0.2085700 0.46407

最近邻居的行索引存储在nn.index第一个集群中，5 个最接近的观测值是 42、38、3、22、43。

r - 在K意味着使用R进行聚类后，检索最接近每个聚类质心的100个样本

1 回答 1

Related

Reference