2

我想增量地聚集文本文档,将它们作为数据流读取,但似乎存在问题。大多数术语权重选项都基于使用 TF-IDF 作为特征权重的向量空间模型。然而,在我们的案例中,现有属性的 IDF 会随着每个新数据点而变化,因此之前的聚类不再有效,因此任何流行的算法(如 CluStream、CURE、BIRCH)都不能应用,因为它们假定了固定维度的静态数据。任何人都可以将我重定向到与此相关的任何现有研究或提供建议吗?谢谢 !

4

2 回答 2

4

你有没有看过

TF-ICF:一种用于聚类动态数据流的新术语加权方案

于 2010-08-30T12:10:22.637 回答
1

这是我头脑中的一个想法:

你的输入数据是什么样的?我猜它至少有类似的主题,所以你可以从基本短语字典开始,然后将其用于idf. Apache Lucene是一个很棒的索引引擎。由于您有一个基本字典,您可以运行kmeans或任何您想要的。随着文档的进入,您必须以某种频率重建字典(可以卸载到另一个线程/机器/等),然后重新集群。

借助在 Lucene 等高性能、灵活的引擎中索引的数据,即使正在为新文档编制索引,您也可以运行查询。我敢打赌,如果您对不同的聚类算法进行一些研究,您会发现一些好主意。

一些有趣的论文/链接:

  1. http://en.wikipedia.org/wiki/Document_classification
  2. http://www.scholarpedia.org/article/Text_categorization
  3. http://en.wikipedia.org/wiki/Naive_Bayes_classifier

如果没有更多信息,我不明白为什么你不能每隔一段时间重新集群。您可能想看看一些已经存在的推荐系统。

于 2010-08-30T01:16:07.230 回答