0

不管我使用的是 Firefox 还是 GoogleBot,该网站仍将我视为机器人。

我正在尝试使用 Goutte 创建一个爬虫。该网站有一个针对爬虫的阻止系统,但我不知道如何避免它。这是我当前的代码:

require_once 'includes/goutte.phar';
use Goutte\Client;
$client = new Client();
$client->setHeader('User-Agent', "Googlebot");
$crawler = $client->request('GET', 'http://www.example.com');
echo $crawler->filter('')->text();

如您所见,我已经更改了用户代理,并且我已经通过爬取记录用户代理的本地文件测试了它是否正确更改。

该网站仍然以某种方式将我识别为机器人。有任何想法吗?

4

2 回答 2

0

您是否尝试过使用 firefox 浏览器或仅使用其用户代理字符串?如果您还没有使用 firefox 浏览器,请执行此操作并使用诸如 firebug 插件(“网络”面板)或 Tamperdata 插件或 Wireshark 之类的东西来捕获导致成功响应的请求的详细信息。

如果您无法使用 firefox 获得成功响应,则不太可能仅阻止机器人。

如果您可以复制导致成功响应的请求。

您可能还会说出“网站仍然将我视为机器人”的意思——您得到的究竟是什么反应?

于 2013-02-01T22:01:05.163 回答
0

用wireshark 嗅探它并检查HTTP 标头。

于 2015-05-28T11:02:24.467 回答