cluster-computing - 如何判断文本聚类算法的性能？

Question

我正在使用 K-Means 算法进行文本聚类，并使用 K-Means++ 进行初始播种。

我尝试通过更改停用词词典和增加 max_no_of_random_iterations 等更改来提高算法效率。

我得到不同的结果。我如何比较它们？我不能在这里应用混淆矩阵的想法。输出不是以某些文档的形式获得某些值或标签。一个文档进入一个集合。它只是相对“良好的聚类”或重要的集合。

那么有没有一些标准的方法来标记这个输出集的性能？

如果混淆矩阵是答案，请解释如何做？

谢谢。

score 0 · Accepted Answer

您可以提前决定如何衡量集群的质量，例如计算有多少空的或一些统计数据，如 平方和内

这篇论文说

“......三种不同的聚类有效性方法是可能的。第一种方法依赖于外部标准，调查聚类数据集中某些预定义结构的存在。第二种方法利用内部标准，聚类结果通过描述的数量进行评估基于内部和外部标准的方法使用统计测试，其缺点是计算成本高。第三种方法使用相对标准，依赖于找到满足某些假设的最佳聚类方案和需要预定义的输入参数值”

由于聚类是无监督的，因此您要求的是一些困难的东西。我建议研究人们如何使用遗传算法进行聚类，并查看他们使用的健身标准。

cluster-computing - 如何判断文本聚类算法的性能？

1 回答 1

Related

Reference