我正在尝试从 Web 获取数据并使用 cURL和 Simple HTML Dom PHP 类将其显示给用户。
某些页面根据客户端的语言进行重定向,我正在使用一个函数来确定要抓取的最终页面。
为了像用户看到的那样显示它,我使用这个:
$useragent = $_SERVER['HTTP_USER_AGENT'];
curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
目前,我目前的大多数用户都是说西班牙语的,因此我暂时限制接受的语言,所以如果目标页面上有语言重定向,它将首先显示西班牙语或英语。
$header[] = "Accept-Language: es-es,es;q=0.8,en-us;q=0.5,en;q=0.3";
但是,由于我的服务器位于荷兰,并且某些页面具有基于IP 的重定向器,因此有时页面会重定向到 /nl/ 目录,而忽略语言参数。
例如,www.econsultancy.com网站会发生这种情况。
是否可以避免这种重定向,也许在 cURL 请求中使用客户端的 IP 地址?
另外,是否可以使用客户端的浏览器语言设置来使Accept-Language参数动态化?
这是整个函数脚本:
<?
function redirector($originalurl) {
$ch = curl_init();
$useragent = $_SERVER['HTTP_USER_AGENT'];
$header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
$header[] = "Cache-Control: max-age=0";
$header[] = "Connection: keep-alive";
$header[] = "Keep-Alive: 300";
$header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
$header[] = "Accept-Language: es-es,es;q=0.8,en-us;q=0.5,en;q=0.3";
$header[] = "Pragma: ";
curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_URL, $originalurl);
$out = curl_exec($ch);
$out = str_replace("\r", "", $out);
$headers_end = strpos($out, "\n\n");
if( $headers_end !== false ) {
$out = substr($out, 0, $headers_end);
}
$headers = explode("\n", $out);
foreach($headers as $header) {
if( substr($header, 0, 10) == "Location: " ) {
$target = substr($header, 10);
$targeturl = $target;
}
}
return $targeturl;
}
?>
提前致谢!