1

是否可以防止网站被任何抓取工具抓取,但同时允许搜索引擎解析您的内容。

仅仅检查用户代理并不是最好的选择,因为很容易模拟它们。

JavaScript 检查可能是(谷歌执行 JS)一个选项,但一个好的解析器也可以做到这一点。

有任何想法吗?

4

2 回答 2

1

检查链接访问时间可能是可能的,换句话说,如果首页被点击,那么首页上的链接都被“快速”点击。

更简单的是,在页面中删除一些隐藏的链接;机器人将跟随,人们几乎永远不会。

于 2012-05-28T14:44:18.077 回答
1

使用DNS 检查卢克!:)

  1. 检查用户代理,看看它是否将自己标识为搜索引擎机器人
  2. 如果是,获取请求页面的 IP 地址
  3. 反向 DNS 查找 IP 地址以获取主机名
  4. 转发 DNS 查找主机名以获取 IP 地址

帮助文章通过 Google验证 Googlebot中提供了相同的想法

于 2012-05-28T15:01:51.373 回答