0

If I want to block access to all .py files in my server but allow all files in the same folder as this .py files, what should I put in my robot.txt? This is what I have right, now:

User-Agent: *    
Disallow: /*_.py
4

2 回答 2

2

文件没有“定义的标准” robots.txt,但在http://www.robotstxt.org/上汇总了很多信息。

http://www.robotstxt.org/robotstxt.html上,声明:

具体来说,您不能使用“User-agent: *bot*”、“Disallow: /tmp/*”或“Disallow: *.gif”之类的行。

尽管某些爬虫确实允许使用通配符,但如果您想要一个可靠的解决方案,您最安全的选择是假设没有爬虫会考虑您的Disallow:线路,并建议您找到替代解决方案。否则,您将实施一个解决方案,该解决方案将得到一些搜索引擎的支持,同时让您的网站对其他人开放。

于 2013-08-27T23:30:31.407 回答
1

根据this pagethis one,特定的爬虫/机器人(例如Googlebot和MSNBot)确实支持在“Disallow:”行中使用星号(*)。

例如,如果您想阻止 Googlebot 访问您的 .py 文件,您可以使用:

User-agent: Googlebot
Disallow: /*.py$

美元符号 ($) 指定文件名的结尾(包括其扩展名)。请注意,Googlebot-Image 和 MSNBot 也遵循此语法。但是,由于我无法找到有关其他爬虫支持此功能的信息,您可能需要指定本文中提到的“用户代理”的语法。

当然,从长远来看,最好找到一个通用的解决方案,但这可能是一个快速的解决方案。

于 2013-08-27T23:43:28.693 回答