我一直在考虑这个问题,所以我想我会寻求建议:
我有一些爬虫进入某个站点的根目录(可以是来自 www.StackOverFlow.com、www.SomeDudesPersonalSite.se 甚至 www.Facebook.com 的任何内容)。然后我需要确定我正在访问什么“主页”。不同的类型可能是:
- 论坛
- 博客
- 链接目录
- 社交媒体网站
- 新闻网站
- “一个人的网站”
我已经集思广益了一段时间,最好的解决方案似乎是点系统的一些启发式方法。我的意思是不同的趋势对不同的类型给出了一些分数,然后程序会做出猜测。
但这就是我卡住的地方。你如何检测趋势?
- 目录可能很容易:如果站点索引/传出链接非常高,目录应该得到几个点。
- 新闻网站/博客可能很容易:如果索引的大量网站都有日期时间,那么这些类型应该得到几分。
但我真的找不到太多趋势。
SO:我的问题是:关于如何做到这一点的任何想法?
非常感谢..