Google 新闻和 Techmeme 如何对相似的新闻项目进行聚类?是否有任何众所周知的算法用于实现这一目标?
感谢你的帮助。
提前致谢。
Google 新闻和 Techmeme 如何对相似的新闻项目进行聚类?是否有任何众所周知的算法用于实现这一目标?
感谢你的帮助。
提前致谢。
基于内容对文本进行聚类的一种相当常见的方法是对词向量使用主成分分析(一个 n 维向量,其中每个可能的词代表一个维度,并且对于每个向量,每个方向上的大小是该特定文章中的单词),然后是简单的聚类,例如 K-Means。
算法基础是凝聚聚类或类似的东西。但除此之外还有许多启发式方法。例如,向量空间肯定由单词和短语(单词 n-gram)组成。将搜索限制在严格的时间段内也非常重要。识别名称,更多地衡量标题和段落标题也是关键部分。
在切线相关的注释上。如果您有兴趣查找几乎重复的文章,那么有许多更易于实施的方法,例如此处描述的方法
有几种不同的方法可以做到这一点。标准是做“词袋”分析(加权TF-IDF),然后做余弦相似度和k-means。
我在这篇论文上取得了成功:http: //ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber= 4289851
它的伟大之处在于:1)它是增量的,这对新闻来说非常有用。使用标准 k-means,您需要拥有整个数据集。对于新闻,您通常会有文章随着时间的推移而到达。增量算法解决了这个问题。2)它是基于短语的。所以它依赖于短语而不仅仅是单词。
最近,出现了一些使用语义而不是单词的技术(例如,通过从每篇文章中提取 Wikipedia 或 DBPedia 概念,并使用它们而不只是单词)。