-1

假设我有项目 i1, ..., iN

我想以这样的方式对它们进行聚类:

  1. 如果我多次运行集群,项目 iJ 和 iK 最终在同一个集群中的概率很高。
  2. 无论集群种子如何,集群的数量和集群成员都相对稳定

是否有众所周知的算法来实现这一点?

澄清:

说我想要 3 个集群并说:

  • 实际上,我从 i1、i33、i89 作为集群 c1 c2 c3 的种子开始
  • 在现实 2 中,我从 i44、i55、i77 作为集群 c1 c2 c3 的种子开始

我希望两个现实中的结果集群大体相似

4

2 回答 2

2

我认为层次聚类算法将满足您的需求。

  1. 对于同一个集合保证集群一致性,项目 iJ 和 iK 最终在同一个集群中的概率为 1。
  2. 没有种子。您可以通过分析树或使用现有的截断算法(有很多)来选择正确数量的集群。

[编辑]

事实上,任何确定性聚类算法都具有这些特征,而不仅仅是层次聚类。

于 2013-10-11T19:25:15.427 回答
1

使算法在初始化方面更健壮的一种常见策略是引导它。例如见这篇论文

另一种选择是预先对数据进行排序并使用严格的确定性算法。

于 2013-10-11T19:28:41.110 回答