0

我正在尝试创建一个机器人来检查特定 URL 是否具有某些特定内容。但是,当我运行它时,我不断收到“HTTP 重定向循环”错误。

我唯一可以怀疑的是该页面不允许机器人。有什么方法可以判断页面是否不允许机器人?我已经用谷歌搜索了它,但我还没有找到答案。

编辑

在检查了一些东西之后,robots.txt 是这样说的:

User-agent: *
Disallow: /advsched/

我还注意到,当我在浏览器中禁用 cookie 并访问该页面时,我收到“HTTP 重定向循环”错误。所以据我了解,我试图访问的页面不允许机器人。但是,根据我对 cURL 函数的了解,只要我的用户代理是这样的:

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5

该网站无法判断我是否是机器人。只剩下一件事——饼干。我知道 cURL 函数可以处理 cookie,但它们可以处理它们,使我看起来像一个标准用户吗?我还不能让它工作。

4

2 回答 2

3

你说不出来。

什么是机器人?服务器怎么知道?通常,标识信息在User-Agent客户端在请求期间发送的头部中。但是,不要求某些服务器在一般级别上阻止“机器人”。假设他们只想屏蔽谷歌?

马里奥的检查建议robots.txt是一个很好的建议。网站所有者通常会在其中设置机器人可以访问的内容以及如何处理抓取的信息的规则。不过,这与您的重定向无关。

于 2012-08-17T02:01:43.703 回答
0

检查/robots.txt并解释其内容。

说明在http://robotstxt.org/

于 2012-08-17T02:46:02.967 回答