3

不久前,我们在一个站点上实施了一个评级系统,其中涉及到脚本的链接。然而,由于网站上的绝大多数评级为 3/5,而且评级在 1-5 之间非常均匀,我们开始怀疑搜索引擎爬虫等正在通过。使用的网址如下所示:

http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3

开始时,我们将以下内容添加到 robots.txt 中:

User-agent: *
Disallow: /rate

这是不正确的还是 googlebot 和其他人只是忽略了我们的 robots.txt?

4

3 回答 3

6

您应该将 POST 用于更改内容的操作,因为搜索引擎通常不提交表单。此外,这将阻止以递归方式(例如使用 wget)下载您的网站的用户提交大量选票。

根据您的站点,通过 javascript 处理投票也可能是一种解决方案。

关于你的 robots.txt:它必须在根路径中 - 即http://www.thesite.com/robots.txt - 如果你的评级系统是 /blah/rate 你需要使用Disallow: /blah/rate而不是Disallow: /rate

于 2010-05-17T10:13:57.087 回答
0
User-agent: *
Disallow: /path/to/the/page/rate

您必须使用完整路径。

可能想在这里阅读一下:http ://www.javascriptkit.com/howto/robots.shtml

于 2010-05-17T10:13:59.067 回答
0

在我看来不正确。您只是不允许访问http://www.thesite.com/rate(以及它下面的页面 IIRC)。加上一些爬虫忽略robots.txt

最好做到这一点,以便只在响应 POST 而不是 GET 时更改评级。搜索引擎从不使用 POST。

于 2010-05-17T10:14:40.863 回答