我想计算广告点击小部件。
我在 robots.txt 文件中使用过:
User-agent: *
Allow: /
Disallow: */ads_count/*
我还添加nofollow
了该小部件中的所有链接。
但是许多机器人仍然遵循该小部件中的网址。我有客户端 ip 来计算 url,我有很多 IP 表单机器人。
我想计算广告点击小部件。
我在 robots.txt 文件中使用过:
User-agent: *
Allow: /
Disallow: */ads_count/*
我还添加nofollow
了该小部件中的所有链接。
但是许多机器人仍然遵循该小部件中的网址。我有客户端 ip 来计算 url,我有很多 IP 表单机器人。
您是否尝试在 */ads_count 之前删除 (*)?正如 SEO 的谷歌文档所说,如果你想阻止所有的机器人,就像你做的那样:
User-agent: * // (to whom? (*) means all bots!
Disallow: /ads_count
请注意,指令区分大小写。例如, Disallow: /junk_file.asp 会阻止http://www.example.com/junk_file.asp,但会允许http://www.example.com/Junk_file.asp。Googlebot 将忽略 robots.txt 中的空格(尤其是空行)和未知指令。
Allow
并且通配符不是原始 robots.txt 规范的一部分,因此并非所有 robots.txt 解析器都会知道/注意这些规则*
。Disallow
如果你想屏蔽所有以 开头的页面/ads_count/
,你只需要:
User-agent: *
Disallow: /ads_count/
但是:并非所有机器人都尊重 robots.txt。因此,您仍然会受到忽略 robots.txt 的恶意机器人的攻击。