0

我想抓取一个网站。它的 robots.txt 文件中有以下内容,但我不确定他们不希望我做什么:

User-agent: *
Disallow: /click

没有点击子目录。或者他们不希望我访问通常需要单击的任何内容(例如通过表单提交数据)?在任何情况下,他们肯定不会让事情变得容易 - 主页的表单获取到设置由第三页读取的 cookie 的站点。

4

1 回答 1

2

这意味着任何机器人都不应该抓取路径以字符串开头的任何URL 。click

例如,应阻止以下 URL:

  • example.com/click
  • example.com/click.html
  • example.com/click/
  • example.com/click/foo/bar
  • example.com/clicker

以下 URL 仍将被允许:

  • example.com/foo/click
  • example.com/fooclick
  • example.com/clic

您可以在http://www.robotstxt.org/wc/robots.html找到原始 robots.txt 规范。

于 2013-01-16T17:19:28.933 回答