对于搜索机器人,我正在设计:
* 比较 URI 并
* 确定哪些 URI 确实是同一个页面
处理重定向和别名:
案例 1:重定向
案例 2:别名,例如 www
案例 3:URL 参数,例如 sukshma.net/node#parameter
我可以采用两种方法,一种方法是显式检查重定向以捕获案例 #1。另一种方法是“硬编码”别名,例如 www,适用于案例 #2。第二种方法(硬编码)别名很脆弱。HTTP 的 URL 规范没有提到使用 www 作为别名 (RFC 2616)
我还打算使用规范元标记 (HTTP/HTML),但如果我理解正确 - 我不能依赖标记在所有情况下都存在。
请分享您自己的经验。您知道用于检测搜索机器人中的重复项的参考白皮书实现吗?