2

我想知道解决以下问题的好策略或算法:

我所拥有的是:一组来自不同来源的新闻文章,每篇文章都有时间戳和新闻类别的加权向量。

我想要的是:处理同一主题的来自不同来源的文章集群。

我基本上想复制谷歌新闻的关键功能:呈现主题并为同一主题列出不同的新闻来源。

对于上面提到的新闻类别向量之类的文章,我已经有了很好的功能,我需要知道的是选择正确的策略、聚类算法和库来进行聚类。

聚类算法应具备的特征:

  1. 没有固定数量的集群,(我事先不知道我的文章集中有多少主题)。
  2. 有效地将新文章映射到现有集群,或者如果文章不能很好地适合现有集群,则创建一个新集群。
  3. 考虑相似性文章的时间戳。
  4. 如果要过时并从基础文章集中删除,请解散集群。

我从未做过任何聚类,所以我不知道是否有提供上述功能的聚类算法,或者这些功能中的某些功能是否过于复杂或使聚类方式变慢,因此我需要为它们找到解决方法。

没错,我正在将 mahout 视为集群库。是否有任何现成的开源实现可以使用 mahout 或其他库进行主题检测?

4

1 回答 1

0

我认为以下论文是我在不知道集群数量的情况下遇到的主题检测的最佳方法之一。

http://www.uni-weimar.de/medien/webis/research/events/tir-08/tir08-papers-final/wartena08-topic-detection-by-clustering-keywords.pdf

于 2014-08-28T11:43:54.427 回答