2

对于搜索机器人,我正在设计:
* 比较 URI 并
* 确定哪些 URI 确实是同一个页面

处理重定向和别名:
案例 1:重定向
案例 2:别名,例如 www
案例 3:URL 参数,例如 sukshma.net/node#parameter

我可以采用两种方法,一种方法是显式检查重定向以捕获案例 #1。另一种方法是“硬编码”别名,例如 www,适用于案例 #2。第二种方法(硬编码)别名很脆弱。HTTP 的 URL 规范没有提到使用 www 作为别名 (RFC 2616)

我还打算使用规范元标记 (HTTP/HTML),但如果我理解正确 - 我不能依赖标记在所有情况下都存在。

请分享您自己的经验。您知道用于检测搜索机器人中的重复项的参考白皮书实现吗?

4

2 回答 2

0

构建您自己的网络爬虫是一项繁重的工作。考虑查看一些已经可用的开源蜘蛛,例如JSpiderOpenWebSpider许多其他蜘蛛。

于 2009-12-11T03:54:45.453 回答
0

一种情况可以通过简单地检查HTTP 状态码来解决。

对于第2 和第 3 种情况,维基百科解释得很好:URL Normalization / Canonicalization

于 2010-01-15T01:08:23.240 回答