ajax - Googlebot 在请求 `?_escaped_fragment_=` URL 时如何知道网络服务器没有伪装？

Question

关于 Google 的 AJAX 抓取规范，如果服务器在将替换为URL时向 Googlebot返回一个内容（即，大量 JavaScript 文件）和其他内容（即页面的“html 快照”），则感觉就像在给我伪装。毕竟，Googlebot 是如何确保服务器为和网址返回善意的等价物的。然而，这正是 AJAX 抓取规范实际上告诉网站管理员要做的事情。我错过了什么吗？Googlebot 如何确保服务器在两种情况下都返回相同的内容？#!#!?_escaped_fragment_=#!?_escaped_fragment_=

score 1 · Accepted Answer

爬虫不知道。但是，即使对于返回纯 ol' html 的网站，它也永远不会知道 - 编写代码来根据爬虫使用的 http 标头或已知的 IP 标头来掩盖网站是非常容易的。

请参阅此相关问题： Google 如何知道您在伪装？

大部分看起来像是猜想，但似乎有各种就地检查，在欺骗正常浏览器标题和实际查看页面的真人之间有所不同。

继续猜想，当然不会超出谷歌程序员的能力范围，编写一种实际检索用户所见内容的爬虫形式——毕竟，他们有自己的浏览器可以做到这一点。一直这样做会耗费过多的 CPU 资源，但对于偶尔的抽查来说可能是有意义的。

ajax - Googlebot 在请求 `?_escaped_fragment_=` URL 时如何知道网络服务器没有伪装？

1 回答 1

Related

Reference