0

我想知道如何在java中使用canopy cluster对这个输入进行聚类?

       1 access 375
       1 addition 375
       1 advance 375
       1 answered 375
       1 applied 375
       1 approximate 375
       1 evil 375

       1 hiway 375
       1 home 375
       1 hope 375
       1 hotmail 375
       3 town 375
       4 forum 375
       4 good 375
       4 reig 375
       5 plot 375

其中第一列是单词的频率。第二列是单词,第三列是单词总数。

如何进行树冠分类?并想知道什么是阈值?

4

1 回答 1

1

Canopy 聚类应用于向量完整的文本,而不是单个单词

您认为集群是什么?除非你清楚你期望一个集群是什么样的,否则你永远不会弄清楚正确的算法是什么。

那么您是否期望像这样的集群:

   1 access 375
   1 addition 375
   1 advance 375
   1 answered 375
   1 applied 375
   1 approximate 375

(以a开头的稀有词)?这对你有用吗?

聚类算法不是魔术工具。您需要仔细选择和配置它们以产生您感兴趣的结果。

于 2013-02-14T07:02:54.340 回答