machine-learning - 我应该在使用 K-Means 的主题聚类中使用哪个指标？

Question

我正在尝试实现 k-means 算法，输入是一堆文本文件，我想将它们聚集到不同的主题中。

第一步是将这些文本文件转换为矢量样本。

我的问题是，我应该使用以下哪个指标？为什么？

score 1 · Accepted Answer

最好的方法可能是对每个文档使用前 50 个左右的 TF-IDF 术语（不必正好是 50，您应该尝试使用这个数字）。由于高维，使用完整的单词出现向量可能不会给您带来好的结果。

或者，我建议探索潜在狄利克雷分配并将每个文档的主题比例用作聚类的特征。

1 回答 1