有没有办法配置 robots.txt 以便该站点只接受来自 Google、Yahoo! 的访问?和 MSN 蜘蛛?
vyger
问问题
24869 次
4 回答
34
用户代理: * 不允许: / 用户代理:Googlebot 允许: / 用户代理:Slurp 允许: / 用户代理:msnbot 不允许:
Slurp是雅虎的机器人
于 2009-03-22T19:38:08.787 回答
18
为什么?
任何作恶的人(例如,收集电子邮件地址以发送垃圾邮件)都会忽略 robots.txt。因此,您只会阻止合法的搜索引擎,因为 robots.txt 合规性是自愿的。
但是——如果你仍然坚持这样做——这就是User-Agent:
robots.txt 中的那一行。
User-agent: googlebot
Disallow:
User-agent: *
Disallow: /
当然,还有您希望从中获得流量的所有其他搜索引擎的行。Robotstxt.org有一个部分列表。
于 2009-03-22T19:35:01.617 回答
3
根据您所谈论的国家/地区,有超过 3 个主要搜索引擎。Facebook 似乎做得很好,只列出了合法的:https ://facebook.com/robots.txt
所以你的 robots.txt 可以是这样的:
User-agent: Applebot
Allow: /
User-agent: baiduspider
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Facebot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: msnbot
Allow: /
User-agent: Naverbot
Allow: /
User-agent: seznambot
Allow: /
User-agent: Slurp
Allow: /
User-agent: teoma
Allow: /
User-agent: Twitterbot
Allow: /
User-agent: Yandex
Allow: /
User-agent: Yeti
Allow: /
User-agent: *
Disallow: /
于 2018-06-23T01:01:02.977 回答
0
众所周知,robots.txt 是爬虫必须遵守的标准,因此只有表现良好的代理才会这样做。所以,放不放都无所谓。
如果您有一些数据,您也没有在网站上显示,您可以更改权限并提高安全性。
于 2012-10-23T19:07:18.087 回答