4

这更像是一个理论问题:

你知道任何不需要任何输入参数的聚类算法(平面或分层),比如聚类的数量或邻域的大小等?换句话说,您只需将数据作为输入提供给算法,然后将集群作为输出。

如果有关文件/文件的建议,我会很高兴。

4

2 回答 2

2

在仍然被认为是开放性研究问题中,自动确定集群的数量确实是一个棘手的问题。

最先进的聚类技术之一是将您的数据建模为 Dirichlet Process Mixture 请参阅 贝叶斯层次聚类,但它并非微不足道,需要贝叶斯方法和马尔可夫链蒙特卡罗 (MCMC) 估计的扎实背景。

这种方法可以自动估计聚类的数量。

于 2013-02-08T04:09:57.450 回答
0

通常,一旦您定义了聚类的含义,答案就会出现。这是困难的部分。

对于实值数据,我喜欢使用带有自动h选择的均值偏移。聚类对应于数据密度图中的模式,分组结果类似于分水岭变换。

http://en.wikipedia.org/wiki/Mean-shift
http://en.wikipedia.org/wiki/Kernel_density_estimation
http://en.wikipedia.org/wiki/Multivariate_kernel_density_estimation

于 2013-02-07T18:39:01.270 回答