algorithm - Google 新闻如何自动将文章分类为科技/科学/健康/娱乐/等？

Question

假设我选择了一个像 CNN 这样的随机来源。将抓取的文章自动分类到基于关键字的类别，或者为不同的类别（例如 cnn.com/tech 或 /entertainment）抓取网站的各个部分是否更有利。第二个选项不容易扩展，我不想为不同的来源手动配置 url。Google 新闻如何解决这个问题？

score 8 · Accepted Answer

这是 2005 年的 Google 专利

《提高新闻文章排名的系统和方法》

以及 2012 年的更新：

提高新闻文章排名的系统和方法

如果您想自己构建一个简单的系统，我会这样做：

拿一堆已经归类为体育/科技/其他类别的新闻报道。

将它们标记为单个单词和词组（单词的短序列）。

创建一个非常大的表格，以独特的单词和克作为列，将单个故事作为行：

StoryId  Class  word1  word2  gram1  gram2 ...

1        sports 0      0.2    0.01   0
2        tech   0.5    0.01   0      0.3
3        sports 0      0.1    0.3    0.01

其中单元格中的值表示文档中单词的频率、二进制出现或 TF-IDF 分数。

使用分类算法（例如朴素贝叶斯或支持向量机）来学习列相对于类标签的权重。这称为您的模型。

当你得到一个新的、未分类的文档时，像以前一样对它进行标记，应用你之前创建的模型，它会给你最有可能的文档类标签。

这是我的视频系列，其中包括有关自动文档分类的视频：

http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html

score 0 · Accepted Answer

现在不确定答案是否相关

检查谷歌的 NLP API。他们正在使用分层分类接近 800 个类。

这是他们支持的类别列表

algorithm - Google 新闻如何自动将文章分类为科技/科学/健康/娱乐/等？

2 回答 2

Related

Reference