0

我正在尝试实现 k-means 算法,输入是一堆文本文件,我想将它们聚集到不同的主题中。

第一步是将这些文本文件转换为矢量样本。

我的问题是,我应该使用以下哪个指标?为什么 ?

  1. 字出现与否。
  2. 词频。
  3. TF-IDF。
4

1 回答 1

1

最好的方法可能是对每个文档使用前 50 个左右的 TF-IDF 术语(不必正好是 50,您应该尝试使用这个数字)。由于高维,使用完整的单词出现向量可能不会给您带来好的结果。

或者,我建议探索潜在狄利克雷分配并将每个文档的主题比例用作聚类的特征。

于 2013-05-04T15:32:45.030 回答