http - 比较搜索机器人的 URI？

Question

对于搜索机器人，我正在设计：
* 比较 URI 并
* 确定哪些 URI 确实是同一个页面

处理重定向和别名：
案例 1：重定向
案例 2：别名，例如 www
案例 3：URL 参数，例如 sukshma.net/node#parameter

我可以采用两种方法，一种方法是显式检查重定向以捕获案例 #1。另一种方法是“硬编码”别名，例如 www，适用于案例 #2。第二种方法（硬编码）别名很脆弱。HTTP 的 URL 规范没有提到使用 www 作为别名 (RFC 2616)

我还打算使用规范元标记 (HTTP/HTML)，但如果我理解正确 - 我不能依赖标记在所有情况下都存在。

请分享您自己的经验。您知道用于检测搜索机器人中的重复项的参考白皮书实现吗？

score 0 · Accepted Answer

构建您自己的网络爬虫是一项繁重的工作。考虑查看一些已经可用的开源蜘蛛，例如JSpider、OpenWebSpider或许多其他蜘蛛。

score 0 · Accepted Answer

第一种情况可以通过简单地检查HTTP 状态码来解决。

对于第2 和第 3 种情况，维基百科解释得很好：URL Normalization / Canonicalization。

2 回答 2