不管我使用的是 Firefox 还是 GoogleBot,该网站仍将我视为机器人。
我正在尝试使用 Goutte 创建一个爬虫。该网站有一个针对爬虫的阻止系统,但我不知道如何避免它。这是我当前的代码:
require_once 'includes/goutte.phar';
use Goutte\Client;
$client = new Client();
$client->setHeader('User-Agent', "Googlebot");
$crawler = $client->request('GET', 'http://www.example.com');
echo $crawler->filter('')->text();
如您所见,我已经更改了用户代理,并且我已经通过爬取记录用户代理的本地文件测试了它是否正确更改。
该网站仍然以某种方式将我识别为机器人。有任何想法吗?