我正在尝试设置一个非常基本的代理脚本来提取外部内容并在它们上执行一些脚本。为了绕过同源策略,我使用 curl 来获取内容
<?php
$url = 'http://www.mozilla.org';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/1.0");
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$result= curl_exec ($ch);
curl_close ($ch);
echo $result;
?>
然而,这并没有获取所有的 CSS + 图像等。我插入了一个“基本”引用,但它只指向原始源
echo '<base href="http://www.mozilla.org"/>';
我的问题是,我应该使用什么方法来解析所有的 CSS、img 和其他 js 链接,以便在提取的外部内容的每个页面上,URL 应该始终是这样的:
http://mydomain.com/curl.php?url=http://www.mozilla.org/Main-page.html/
http://mydomain.com/curl.php?url=http://www.mozilla.org/Main-page.html/Sub-page.html
谢谢