If I want to block access to all .py files in my server but allow all files in the same folder as this .py files, what should I put in my robot.txt? This is what I have right, now:
User-Agent: *
Disallow: /*_.py
If I want to block access to all .py files in my server but allow all files in the same folder as this .py files, what should I put in my robot.txt? This is what I have right, now:
User-Agent: *
Disallow: /*_.py
文件没有“定义的标准” robots.txt
,但在http://www.robotstxt.org/上汇总了很多信息。
在http://www.robotstxt.org/robotstxt.html上,声明:
具体来说,您不能使用“User-agent: *bot*”、“Disallow: /tmp/*”或“Disallow: *.gif”之类的行。
尽管某些爬虫确实允许使用通配符,但如果您想要一个可靠的解决方案,您最安全的选择是假设没有爬虫会考虑您的Disallow:
线路,并建议您找到替代解决方案。否则,您将实施一个解决方案,该解决方案将得到一些搜索引擎的支持,同时让您的网站对其他人开放。
根据this page和this one,特定的爬虫/机器人(例如Googlebot和MSNBot)确实支持在“Disallow:”行中使用星号(*)。
例如,如果您想阻止 Googlebot 访问您的 .py 文件,您可以使用:
User-agent: Googlebot
Disallow: /*.py$
美元符号 ($) 指定文件名的结尾(包括其扩展名)。请注意,Googlebot-Image 和 MSNBot 也遵循此语法。但是,由于我无法找到有关其他爬虫支持此功能的信息,您可能需要指定本文中提到的“用户代理”的语法。
当然,从长远来看,最好找到一个通用的解决方案,但这可能是一个快速的解决方案。