假设我选择了一个像 CNN 这样的随机来源。将抓取的文章自动分类到基于关键字的类别,或者为不同的类别(例如 cnn.com/tech 或 /entertainment)抓取网站的各个部分是否更有利。第二个选项不容易扩展,我不想为不同的来源手动配置 url。Google 新闻如何解决这个问题?
问问题
5503 次
2 回答
8
这是 2005 年的 Google 专利
以及 2012 年的更新:
如果您想自己构建一个简单的系统,我会这样做:
拿一堆已经归类为体育/科技/其他类别的新闻报道。
将它们标记为单个单词和词组(单词的短序列)。
创建一个非常大的表格,以独特的单词和克作为列,将单个故事作为行:
StoryId Class word1 word2 gram1 gram2 ...
1 sports 0 0.2 0.01 0
2 tech 0.5 0.01 0 0.3
3 sports 0 0.1 0.3 0.01
其中单元格中的值表示文档中单词的频率、二进制出现或 TF-IDF 分数。
使用分类算法(例如朴素贝叶斯或支持向量机)来学习列相对于类标签的权重。这称为您的模型。
当你得到一个新的、未分类的文档时,像以前一样对它进行标记,应用你之前创建的模型,它会给你最有可能的文档类标签。
这是我的视频系列,其中包括有关自动文档分类的视频:
http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html
于 2013-09-16T18:57:01.097 回答
0
于 2018-05-25T07:11:46.757 回答