9

假设我选择了一个像 CNN 这样的随机来源。将抓取的文章自动分类到基于关键字的类别,或者为不同的类别(例如 cnn.com/tech 或 /entertainment)抓取网站的各个部分是否更有利。第二个选项不容易扩展,我不想为不同的来源手动配置 url。Google 新闻如何解决这个问题?

4

2 回答 2

8

这是 2005 年的 Google 专利

《提高新闻文章排名的系统和方法》

以及 2012 年的更新:

提高新闻文章排名的系统和方法

如果您想自己构建一个简单的系统,我会这样做:

拿一堆已经归类为体育/科技/其他类别的新闻报道。

将它们标记为单个单词和词组(单词的短序列)。

创建一个非常大的表格,以独特的单词和克作为列,将单个故事作为行:

StoryId  Class  word1  word2  gram1  gram2 ...

1        sports 0      0.2    0.01   0
2        tech   0.5    0.01   0      0.3
3        sports 0      0.1    0.3    0.01

其中单元格中的值表示文档中单词的频率、二进制出现或 TF-IDF 分数。

使用分类算法(例如朴素贝叶斯或支持向量机)来学习列相对于类标签的权重。这称为您的模型。

当你得到一个新的、未分类的文档时,像以前一样对它进行标记,应用你之前创建的模型,它会给你最有可能的文档类标签。

这是我的视频系列,其中包括有关自动文档分类的视频:

http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html

于 2013-09-16T18:57:01.097 回答
0

现在不确定答案是否相关

检查谷歌的 NLP API。他们正在使用分层分类接近 800 个类。

是他们支持的类别列表

于 2018-05-25T07:11:46.757 回答