您可以创建一个 robots.txt 并使用Disallow属性。
例如,既然您提到了这 3 个网址:
www.mysite.com/example.html?start=10
www.mysite.com/example.html?start=20
www.mysite.com/example.html?limitstart=0
你应该使用这个:
Disallow: /?start=
Disallow: /?limitstart=
您必须使用Disallow:后跟/以及您要禁止的内容中包含的模式。它可以针对特定的文件或文件夹。
您还可以使用User-agent属性指定要隐藏文件或文件夹的机器人:
User-agent: *
Disallow: /?start=
Disallow: /?limitstart=
上面的代码适用于任何机器人或爬行引擎。
User-agent: googlebot
Disallow: /?start=
Disallow: /?limitstart=
例如,此代码仅适用于 Google。
作为参考,您可以阅读您在www.robotstxt.org上找到的材料,或者 wikipedia 上的页面已经足够好了。http://en.wikipedia.org/wiki/Robots.txt
另一个详细的参考可以在这里找到:https ://developers.google.com/webmasters/control-crawl-index/docs/robots_txt