4

关于 Google 的 AJAX 抓取规范,如果服务器在将替换为URL时向 Googlebot返回一个内容(即,大量 JavaScript 文件)和其他内容(即页面的“html 快照”) ,则感觉就像在给我伪装。毕竟,Googlebot 是如何确保服务器为和网址返回善意的等价物的。然而,这正是 AJAX 抓取规范实际上告诉网站管理员要做的事情。我错过了什么吗?Googlebot 如何确保服务器在两种情况下都返回相同的内容?#!#!?_escaped_fragment_=#!?_escaped_fragment_=

4

1 回答 1

1

爬虫不知道。但是,即使对于返回纯 ol' html 的网站,它也永远不会知道 - 编写代码来根据爬虫使用的 http 标头或已知的 IP 标头来掩盖网站是非常容易的。

请参阅此相关问题: Google 如何知道您在伪装?

大部分看起来像是猜想,但似乎有各种就地检查,在欺骗正常浏览器标题和实际查看页面的真人之间有所不同。

继续猜想,当然不会超出谷歌程序员的能力范围,编写一种实际检索用户所见内容的爬虫形式——毕竟,他们有自己的浏览器可以做到这一点。一直这样做会耗费过多的 CPU 资源,但对于偶尔的抽查来说可能是有意义的。

于 2012-09-04T17:23:29.457 回答