我正在尝试基于 Symfony2 组件的 PHP 网络爬虫Goutte 。我已经成功地以纯文本和 SSL 形式检索了 Google。但是,我遇到了一个无法加载的 ASP/SSL 页面。
这是我的代码:
// Load a crawler/browser system
require_once 'vendor/goutte/goutte.phar';
// Here's a demo of a page we want to parse
$uri = '(removed)';
use Goutte\Client;
$client = new Client();
$crawler = $client->request('GET', $uri);
echo $crawler->text() . "\n";
相反,对于这个站点,上述代码末尾的回声给了我这个:
错误请求(无效的标头名称)
我可以在 Firefox 中很好地看到该站点,并且可以使用wget --no-check-certificate
没有其他选项(例如,设置标题或用户代理)很好地检索它的 HTML。
我怀疑我需要在 Goutte 中设置一些 HTTP 标头。有没有人知道我应该尝试哪些?