0

我正在尝试从 Web 获取数据并使用 cURL和 Simple HTML Dom PHP 类将其显示给用户。

某些页面根据客户端的语言进行重定向,我正在使用一个函数来确定要抓取的最终页面。

为了像用户看到的那样显示它,我使用这个:

$useragent = $_SERVER['HTTP_USER_AGENT'];
curl_setopt($ch, CURLOPT_USERAGENT,  $useragent);

目前,我目前的大多数用户都是说西班牙语的,因此我暂时限制接受的语言,所以如果目标页面上有语言重定向,它将首先显示西班牙语或英语。

$header[] = "Accept-Language: es-es,es;q=0.8,en-us;q=0.5,en;q=0.3";

但是,由于我的服务器位于荷兰,并且某些页面具有基于IP 的重定向器,因此有时页面会重定向到 /nl/ 目录,而忽略语言参数。

例如,www.econsultancy.com网站会发生这种情况。

是否可以避免这种重定向,也许在 cURL 请求中使用客户端的 IP 地址?

另外,是否可以使用客户端的浏览器语言设置来使Accept-Language参数动态化?

这是整个函数脚本:

<?
function redirector($originalurl) {

$ch = curl_init();

$useragent = $_SERVER['HTTP_USER_AGENT'];

    $header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,";
    $header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
    $header[] = "Cache-Control: max-age=0";
    $header[] = "Connection: keep-alive";
    $header[] = "Keep-Alive: 300";
    $header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
    $header[] = "Accept-Language: es-es,es;q=0.8,en-us;q=0.5,en;q=0.3";
    $header[] = "Pragma: ";

curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
curl_setopt($ch, CURLOPT_USERAGENT,  $useragent); 
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

    curl_setopt($ch, CURLOPT_URL, $originalurl);
    $out = curl_exec($ch);

    $out = str_replace("\r", "", $out);

    $headers_end = strpos($out, "\n\n");
    if( $headers_end !== false ) { 
        $out = substr($out, 0, $headers_end);
    }   

    $headers = explode("\n", $out);
    foreach($headers as $header) {
        if( substr($header, 0, 10) == "Location: " ) { 
            $target = substr($header, 10);

            $targeturl = $target;
        }   
    }

return $targeturl;
}
?>

提前致谢!

4

1 回答 1

1

一些基于 IP 的重定向非常顽固(几乎不可能将某些页面从<whatever page thinks your language is>切换为英文),但您可以尝试通过使用CURLOPT_FOLLOWLOCATIONset toFalse和解析Location标头来拦截任何重定向(此解决方案需要您正确猜测 URL):

$status_code = curl_getinfo($ch, CURLINFO_HTTP_CODE);
if( $status_code >= 300 && $status_code < 400){
    // Was redirect, parse header
    if( substr( $location, '/nl/') !== false){
         // Try to load page $url = str_replace( $location, '/nl/', '/en/');
         // Remember to check whether page exists
    } else {
         // Continue request
    }
}

编辑 - 每个站点

如果您有能力在“每个站点”的基础上执行此操作(为每个站点创建切换语言的功能),您可以跟踪切换语言时发生的情况(例如 Firefox 有完美的插件),并且大多数时候您'将最终使用:

  • 硬核(用户无法控制语言) - 你被搞砸了
  • 不同的 URL(我们已经介绍过) - 你会在 URL 中看到/nl/, lang=nl, l=nl, ...
  • 语言存储在 cookie 中- 您只需设置 cookie 一次[tutorial]然后它就正确了
  • 注册用户可以更改语言- 您需要在每个站点上创建用户,将他的(其)语言切换为<whatever you want>然后(打开页面时)您首先在页面上模拟登录(使用 cookie 打开登录表单以及POST用户名和密码)

运气好的话,你会很好地结合“大数组” cookie 值对已经拥有的东西,如下所示:

array (
    'lang' => 'eng',
    'l' => 'en',
    'Language' => 'Engligh',
    ...
)

但是,一旦您遇到两个使用相同“cookie 变量名称”和不同值的页面:

lang=eng
lang=en
lang=7

你被搞砸了,你将不得不switch($domain)再次使用某种东西。

于 2012-11-14T22:04:39.967 回答