我想知道解决以下问题的好策略或算法:
我所拥有的是:一组来自不同来源的新闻文章,每篇文章都有时间戳和新闻类别的加权向量。
我想要的是:处理同一主题的来自不同来源的文章集群。
我基本上想复制谷歌新闻的关键功能:呈现主题并为同一主题列出不同的新闻来源。
对于上面提到的新闻类别向量之类的文章,我已经有了很好的功能,我需要知道的是选择正确的策略、聚类算法和库来进行聚类。
聚类算法应具备的特征:
- 没有固定数量的集群,(我事先不知道我的文章集中有多少主题)。
- 有效地将新文章映射到现有集群,或者如果文章不能很好地适合现有集群,则创建一个新集群。
- 考虑相似性文章的时间戳。
- 如果要过时并从基础文章集中删除,请解散集群。
我从未做过任何聚类,所以我不知道是否有提供上述功能的聚类算法,或者这些功能中的某些功能是否过于复杂或使聚类方式变慢,因此我需要为它们找到解决方法。
没错,我正在将 mahout 视为集群库。是否有任何现成的开源实现可以使用 mahout 或其他库进行主题检测?