1

我正在使用此脚本来抓取网站:

<?php
$url = "http://www.nu.nl";

$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$curl_scraped_page = curl_exec($ch);
curl_close($ch);

echo $curl_scraped_page;
?>

输出在 head 部分的 javascript、css 文件中显示错误的域。所以我尝试用以下方法修复它:

$url = preg_replace("/<head>/i", "<head><base href='$url' />", $url, 1);

不起作用,任何想法为什么?我什么也看不出来。

例子

4

1 回答 1

1

如何使用正确的变量?$curl_scraped_page是您的页面和$url您的网址...但您传递$urlpreg_replace.

$curl_scraped_page = preg_replace("/<head>/i", "<head><base href='$url' />", $curl_scraped_page, 1);
于 2013-04-17T16:17:37.283 回答