24

有没有办法配置 robots.txt 以便该站点只接受来自 Google、Yahoo! 的访问?和 MSN 蜘蛛?

4

4 回答 4

34

用户代理: *
不允许: /
用户代理:Googlebot
允许: /
用户代理:Slurp
允许: /
用户代理:msnbot
不允许:

Slurp是雅虎的机器人

于 2009-03-22T19:38:08.787 回答
18

为什么?

任何作恶的人(例如,收集电子邮件地址以发送垃圾邮件)都会忽略 robots.txt。因此,您只会阻止合法的搜索引擎,因为 robots.txt 合规性是自愿的。

但是——如果你仍然坚持这样做——这就是User-Agent:robots.txt 中的那一行。

User-agent: googlebot
Disallow: 

User-agent: *
Disallow: /

当然,还有您希望从中获得流量的所有其他搜索引擎的行。Robotstxt.org有一个部分列表。

于 2009-03-22T19:35:01.617 回答
3

根据您所谈论的国家/地区,有超过 3 个主要搜索引擎。Facebook 似乎做得很好,只列出了合法的:https ://facebook.com/robots.txt

所以你的 robots.txt 可以是这样的:

User-agent: Applebot
Allow: /

User-agent: baiduspider
Allow: /

User-agent: Bingbot
Allow: /

User-agent: Facebot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: msnbot
Allow: /

User-agent: Naverbot
Allow: /

User-agent: seznambot
Allow: /

User-agent: Slurp
Allow: /

User-agent: teoma
Allow: /

User-agent: Twitterbot
Allow: /

User-agent: Yandex
Allow: /

User-agent: Yeti
Allow: /

User-agent: *
Disallow: /
于 2018-06-23T01:01:02.977 回答
0

众所周知,robots.txt 是爬虫必须遵守的标准,因此只有表现良好的代理才会这样做。所以,放不放都无所谓。

如果您有一些数据,您也没有在网站上显示,您可以更改权限并提高安全性。

于 2012-10-23T19:07:18.087 回答