0

如果时间不是一个因素,并且我们不知道有多少类,那么哪种是文档分类的最佳方法?

4

2 回答 2

2

在我(不完整的)知识中,如果您不知道有多少类,分层凝聚聚类是最好的方法。所有其他聚类算法要么需要先验知识桶的数量,要么需要某种交叉验证或其他实验来确定合理的桶数。

于 2011-04-11T21:01:27.677 回答
1

交叉链接:请参阅SO 上的 how-do-i-determine-k-when-using-k-means-clustering

于 2011-04-13T13:54:50.327 回答