0

“PageJacking”正在创建一个对“WebCrawlers”和普通用户来说看起来不错的网站,我将展示广告/促销内容。只是一个网站将 Good Boy 伪装成“Webcrawler”,而对用户却不是。

维基:http ://en.wikipedia.org/wiki/Pagejacking

爬虫如何避免伪造网站(PageJacking)?

4

1 回答 1

0

用户代理欺骗

一个搜索引擎可以发送两个机器人:

  • 具有真正User-AgentHTTP 标头的机器人(显示自己是搜索引擎机器人)
  • 具有典型浏览器User-AgentHTTP 标头的机器人(模仿人类访问者)

现在搜索引擎可以比较这两个机器人得到的结果。

于 2013-07-14T10:33:31.333 回答