我正在优化我的简单网络爬虫(目前使用 PHP/curl_multi)。
目标是在智能的同时抓取整个网站,并跳过非 html 内容。我尝试使用nobody,并且只发送HEAD请求,但这似乎不适用于每个网站(某些服务器不支持HEAD),导致exec暂停很长时间(有时比加载页面本身长得多)。
有没有其他方法可以在不下载整个内容的情况下获取页面类型,或者如果文件不是 html,则强制 CURL 放弃下载?
(编写我自己的 http 客户端不是一个选项,因为我打算稍后将 CURL 函数用作 cookie 和 ssl)。