我想抓取一个网站。它的 robots.txt 文件中有以下内容,但我不确定他们不希望我做什么:
User-agent: *
Disallow: /click
没有点击子目录。或者他们不希望我访问通常需要单击的任何内容(例如通过表单提交数据)?在任何情况下,他们肯定不会让事情变得容易 - 主页的表单获取到设置由第三页读取的 cookie 的站点。
我想抓取一个网站。它的 robots.txt 文件中有以下内容,但我不确定他们不希望我做什么:
User-agent: *
Disallow: /click
没有点击子目录。或者他们不希望我访问通常需要单击的任何内容(例如通过表单提交数据)?在任何情况下,他们肯定不会让事情变得容易 - 主页的表单获取到设置由第三页读取的 cookie 的站点。
这意味着任何机器人都不应该抓取路径以字符串开头的任何URL 。click
例如,应阻止以下 URL:
example.com/click
example.com/click.html
example.com/click/
example.com/click/foo/bar
example.com/clicker
以下 URL 仍将被允许:
example.com/foo/click
example.com/fooclick
example.com/clic
您可以在http://www.robotstxt.org/wc/robots.html找到原始 robots.txt 规范。