这是一个两部分的问题。
Q1:基于 cURL 的请求能否 100% 模仿基于浏览器的请求?
Q2:如果是,所有选项应该设置什么。如果不是,浏览器做了什么额外的事情,cURL 无法模仿?
我有一个网站,我看到在很短的时间内从一个 IP 发出了数千个请求。这些请求收集了我所有的数据。当查看日志以识别所使用的代理时,它看起来像是来自浏览器的请求。所以很想知道它是否是机器人而不是用户。
提前致谢
这是一个两部分的问题。
Q1:基于 cURL 的请求能否 100% 模仿基于浏览器的请求?
Q2:如果是,所有选项应该设置什么。如果不是,浏览器做了什么额外的事情,cURL 无法模仿?
我有一个网站,我看到在很短的时间内从一个 IP 发出了数千个请求。这些请求收集了我所有的数据。当查看日志以识别所使用的代理时,它看起来像是来自浏览器的请求。所以很想知道它是否是机器人而不是用户。
提前致谢
这个页面有你问题的所有答案。你可以模仿大部分的东西。
R1:我想,如果您设置了所有正确的标头,是的,基于 curl 的请求可以模仿基于浏览器的请求:毕竟,两者都发送 HTTP 请求,这只是在 a 之后的几行文本特定约定(即 HTTP RFC)
R2:回答这个问题的最佳方法是查看您的浏览器发送的内容;例如,对于 Firefox,您可以使用Firebug或LiveHTTPHeaders来获得它。
例如,为了获取此页面,Firefox 发送了这些请求标头:
GET /questions/1926876/can-a-curl-based-http-request-imitate-a-browser-based-request-completely HTTP/1.1
Host: stackoverflow.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9.2b4) Gecko/20091124 Firefox/3.6b4
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: fr,fr-fr;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive
Referer: http://stackoverflow.com/questions/1926876/can-a-curl-based-http-request-imitate-a-browser-based-request-completely/1926889
Cookie: .......
Cache-Control: max-age=0
(我刚刚删除了一些信息——但你明白了 ;-))
使用 curl,您可以curl_setopt
设置 HTTP 标头;在这里,您可能必须使用CURLOPT_HTTPHEADER
, CURLOPT_COOKIE
, CURLOPT_USERAGENT
, ...的组合