1

我一直在考虑这个问题,所以我想我会寻求建议:

我有一些爬虫进入某个站点的根目录(可以是来自 www.StackOverFlow.com、www.SomeDudesPersonalSite.se 甚至 www.Facebook.com 的任何内容)。然后我需要确定我正在访问什么“主页”。不同的类型可能是:

  • 论坛
  • 博客
  • 链接目录
  • 社交媒体网站
  • 新闻网站
  • “一个人的网站”

我已经集思广益了一段时间,最好的解决方案似乎是点系统的一些启发式方法。我的意思是不同的趋势对不同的类型给出了一些分数,然后程序会做出猜测。

但这就是我卡住的地方。你如何检测趋势?

  • 目录可能很容易:如果站点索引/传出链接非常高,目录应该得到几个点。
  • 新闻网站/博客可能很容易:如果索引的大量网站都有日期时间,那么这些类型应该得到几分。

但我真的找不到太多趋势。

SO:我的问题是:关于如何做到这一点的任何想法?

非常感谢..

4

2 回答 2

3

我相信您正在尝试文档分类,这是一个经过充分研究的主题。

http://en.wikipedia.org/wiki/Document_classification

您将看到许多不同方法的大量列表。但是在确定你所说的“趋势”之前建议其中任何一个(或神经网络等)是过早地建议它。我建议查看“网络文档分类”等。它显然是文档分类的一个相当大的子集,如果您可以访问学术期刊,那么有很多难以理解的文章供您欣赏。

我也确实把你的想法当作家庭作业——也许如果你特别大胆,你可以联系教授。 http://uhaweb.hartford.edu/compsci/ccli/wdc.htm

最后,我相信这是一个可访问(如果格式奇怪)的网站,其中包含一般性且可能已过时的讨论: http ://www.webology.ir/2008/v5n1/a52.html

恐怕我对这个主题没有太多的个人知识,所以我能做的最多就是告诉你关键词“文档分类”并提供一些快速的谷歌搜索。但是,如果我想玩弄这个概念,我认为简单地寻找某些关键字的比率是一个不错的起始“趋势”。(“销售”或“购买”或“客户”是购物网站的趋势,“我的”、“意见”、“评论”是博客等的趋势)

于 2010-10-15T19:10:38.233 回答
0

你可以训练一个神经网络来识别它们。给它数量/类型的链接,也许还有 HTML 标签的类型。

我认为否则,您只会猜测是什么使网站成为了它。

于 2010-10-15T11:49:48.990 回答