您只需指定一个robots.txt
进入您的根目录。
更多信息可以在官方文档中找到
放在哪里
简短的回答:在您的 Web 服务器的顶级目录中。
更长的答案:
当机器人在“/robots.txt”文件中查找 URL 时,它会从 URL 中删除路径组件(从第一个单斜杠开始的所有内容),并将“/robots.txt”放在它的位置。
例如,对于“ http://www.example.com/shop/index.html ” ,它将删除“/shop/index.html”,并将其替换为“/robots.txt”,最终会得到“ http://www.example.com/robots.txt ”。
同样来自同一页面(在底部),它给出了一个仅允许某个网页的示例:
排除除一个以外的所有文件
这目前有点尴尬,因为没有“允许”字段。
简单的方法是将所有不允许的文件放到一个单独的目录中,比如“stuff”,然后将一个文件保留在该目录之上的级别:
User-agent: *
Disallow: /~joe/stuff/
或者,您可以明确禁止所有不允许的页面:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html