我想拒绝网络机器人访问这样的网址:
允许这种 url 代替:
http://www.example.com/export?foo=value1
蜘蛛机器人在没有查询字符串的情况下调用/export
,导致我的日志出现很多错误。
有没有办法在 robots.txt 上管理这个过滤器?
我想拒绝网络机器人访问这样的网址:
允许这种 url 代替:
http://www.example.com/export?foo=value1
蜘蛛机器人在没有查询字符串的情况下调用/export
,导致我的日志出现很多错误。
有没有办法在 robots.txt 上管理这个过滤器?
我假设您在机器人访问示例中的第一个 URL 时遇到问题。
正如评论中所说,这可能是不可能的,因为http://www.example.com/export
是资源的基本 URL。即使按照标准有可能,我也不相信机器人能够正确理解这一点。
如果出于同样的原因在没有查询字符串的情况下调用 URL,我也不会发送401 Access denied
或类似的标头:机器人可能认为资源完全超出范围。
在你的情况下我会做的是,如果有人到达
http://www.example.com/export
发送301 Moved permanently
重定向到相同的 URL 和带有一些默认值的查询字符串,例如
http://www.example.com/export?foo=0
这应该保持搜索引擎索引干净。(不过,它不会解决您在评论中陈述的日志记录问题。)