13

kkmeans我对 R 包中的函数有疑问kernlab。我是这个包的新手,如果我在这里遗漏了一些明显的东西,请原谅我。

我想为一组集群中的一个集群分配一个新的数据点,这些集群是使用内核 k-means 和函数“kkmeans”创建的。使用常规聚类,可以通过计算新数据点和聚类质心之间的欧几里得距离来做到这一点,并选择质心最近的聚类。在内核 k-means 中,必须在特征空间中执行此操作。

以 kkmeans 描述中使用的示例为例:

data(iris)

sc <- kkmeans(as.matrix(iris[,-5]), centers=3)

假设我在这里有一个新数据点,我想将其分配给上面在sc.

Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
     5.0         3.6          1.2         0.4 

关于如何做到这一点的任何提示?非常感谢您的帮助。

4

1 回答 1

9

Kernel K-means 使用 Kernel 函数来计算对象的相似度。在简单的 k-means 中,您循环遍历所有质心并选择最小化到给定数据点的距离(未使用度量)的质心。在核方法的情况下(默认核函数kkmeansradial basis function),您只需遍历质心并选择使核函数值最大化(在 RBF 的情况下)或最小化核诱导距离(对于任何核)的一个。此处提供了将内核转换为距离度量的详细说明- 通常由内核引起的距离K可以通过 计算d^2(a,b) = K(a,a)+K(b,b)-2K(a,b),但是对于 RBF,K(x,x)=1对于所有情况x,您可以最大化K(a,b)而不是最小化整个K(a,a)+K(b,b)-2K(a,b).

要从kkmeans对象获取内核函数,您可以使用kernelf函数

> data(iris)
> sc <- kkmeans(as.matrix(iris[,-5]), centers=3)
> K = kernelf(sc)

所以对于你的例子

> c=centers(sc)
> x=c(5.0, 3.6, 1.2, 0.4)
> K(x,c[1,])
             [,1]
[1,] 1.303795e-11
> K(x,c[2,])
             [,1]
[1,] 8.038534e-06
> K(x,c[3,])
          [,1]
[1,] 0.8132268
> which.max( c( K(x,c[1,]), K(x,c[2,]), K(x,c[3,]) ) )
[1] 3

c[3,]=5.032692 3.401923 1.598077 0.3115385在使用核函数的意义上,最接近的质心。

于 2013-09-01T05:47:49.930 回答