-3

不是真正的问题更多的问题。如果您能分辨出 google bot 和浏览您网站的其他用户之间的区别,然后根据是其中一个或另一个加载不同的内容,那么 google 是否可以找到?毕竟,他们不会派人来目视检查。

4

5 回答 5

5

你说的这叫伪装。

他们最终会发现——特别是如果你的竞争对手向他们告发——那么你就会被除名。

于 2009-10-26T21:42:09.553 回答
1

Google 发送的“用户代理”标头与普通浏览器不同,因此您可以轻松地将其用作决定因素并将机器人请求路由到不同的页面。但是,您应该记住,在欺骗他们的爬虫的军备竞赛中,他们可能比您先进得多。

具体来说,您可能应该在尝试恶作剧之前阅读此页面。

编辑:实际上这个页面更合适。

于 2009-10-26T21:43:02.803 回答
0

您能够分辨的唯一方法是通过 HTTP 请求通过的 IP 地址或通过其他 HTTP 请求信息,可能是用户代理。

编辑:我刚刚在 User-Agent 上进行了搜索,发现了以下有趣的站点。我从未使用过此信息,但这可能是您的解决方案:

http://www.useragentstring.com/pages/Googlebot/

于 2009-10-26T21:42:59.263 回答
0

谷歌的机器人不能也不会运行 JavaScript,所以你可以做的一件事就是让你的页面内容是一回事,然后在加载时用 JavaScript 替换它。

拥有全 Flash 网站并且不想被 Google 隐身的人有时会使用这个: http ://blog.deconcept.com/swfobject/

它基本上是一个执行 switcheroo 的 JavaScript 库。

但它有问题
- 对于合法使用,这意味着您必须保持 Flash 和 HTML 代码同步。
- 对于没有启用 JavaScript 的任何人,它都不起作用(他们会看到您打算用于 Google 爬虫的内容)。
- 正如其他人所指出的那样,如果您将它用于其他任何事情,而不仅仅是使您的网站的 HTML 与 Flash 内容匹配并且 Google 曾经抓住过您,您将被永远驱逐。

但是对于一个您必须使用所有 Flash 但希望 Google 看到它的网站(并且没有最新版本的 Flash,这可能会使这一点无效),您可以使用它。我以前做过。

于 2009-10-26T21:46:20.947 回答
0

谷歌可以很容易地识别他们的机器人,但他们也运行着一个庞大的网络,允许谷歌跟踪他们的搜索和他们检索到的页面。通过这种方式,Google 可以识别为机器人显示特殊内容的网站,并将其从数据库中删除。

这让我想起了那些认为他们已经开发出一种新的不可破解的加密算法的人,但他们不会告诉任何人该算法是什么,因为它是如此出色。不幸的是,他们最终犯了无数其他人在他们之前犯过的错误。

感谢您在构建代码之前公开提出问题。

于 2009-10-26T21:52:32.870 回答