像谷歌新闻这样的新闻媒体如何自动对有关新兴话题的文档进行分类和排名,比如“奥巴马的 2011 年预算”?
我有一堆带有棒球数据标签的文章,例如球员姓名和与文章的相关性(谢谢,opencalais),并且很想创建一个谷歌新闻风格的界面,在新帖子出现时对其进行排名和显示,尤其是新兴的帖子话题。我想可以用一些静态类别来训练一个朴素的贝叶斯分类器,但这并不能真正允许跟踪诸如“这个球员刚刚被交易到这支球队,其他球员也参与其中”这样的趋势。
像谷歌新闻这样的新闻媒体如何自动对有关新兴话题的文档进行分类和排名,比如“奥巴马的 2011 年预算”?
我有一堆带有棒球数据标签的文章,例如球员姓名和与文章的相关性(谢谢,opencalais),并且很想创建一个谷歌新闻风格的界面,在新帖子出现时对其进行排名和显示,尤其是新兴的帖子话题。我想可以用一些静态类别来训练一个朴素的贝叶斯分类器,但这并不能真正允许跟踪诸如“这个球员刚刚被交易到这支球队,其他球员也参与其中”这样的趋势。
毫无疑问,谷歌新闻可能会使用其他技巧(甚至是它们的组合),但是一个相对便宜的技巧,计算上,从自由文本中推断主题将利用 NLP 的概念,即一个词只有在连接到其他词时才有意义。
一种易于从多个文档中发现新主题类别的算法可以概述如下:
也可以更改此通用配方以利用文档的其他属性和其中的文本。例如,文档来源(比如 cnn/sports 与 cnn/politics ...)可用于选择特定领域的词典。另一个示例,该过程可以或多或少地强调文档标题(或具有特定标记的文本的其他区域)中的单词/表达。
谷歌新闻背后的主要算法已被谷歌研究人员发表在学术文献中: