0

我有一个包含 1000 多个页面的 joomla 网站,其中包含如下网址:

www.mysite.com/example.html?start=10  
www.mysite.com/example.html?start=20  
www.mysite.com/example.html?limitstart=0  

所有这些 URL 都由谷歌索引,在谷歌网站管理员工具中,我有大量由这些分页引起的重复元描述列表。

我知道使用 robots.txt 阻止他们并不难,这就是我需要帮助的原因。

4

2 回答 2

1

您可以创建一个 robots.txt 并使用Disallow属性。

例如,既然您提到了这 3 个网址:

www.mysite.com/example.html?start=10  
www.mysite.com/example.html?start=20  
www.mysite.com/example.html?limitstart=0

你应该使用这个:

Disallow: /?start=
Disallow: /?limitstart=

您必须使用Disallow:后跟/以及您要禁止的内容中包含的模式。它可以针对特定的文件或文件夹。

您还可以使用User-agent属性指定要隐藏文件或文件夹的机器人:

User-agent: *
Disallow: /?start=
Disallow: /?limitstart=

上面的代码适用于任何机器人或爬行引擎。

User-agent: googlebot
Disallow: /?start=
Disallow: /?limitstart=

例如,此代码仅适用于 Google。

作为参考,您可以阅读您在www.robotstxt.org上找到的材料,或者 wikipedia 上的页面已经足够好了。http://en.wikipedia.org/wiki/Robots.txt

另一个详细的参考可以在这里找到:https ://developers.google.com/webmasters/control-crawl-index/docs/robots_txt

于 2012-12-27T21:01:06.723 回答
0

正确答案将是:

用户代理: *

禁止:/*?start=

禁止:/*?limitstart=

于 2016-03-17T06:58:08.430 回答