0

可能重复:
如何以编程方式保存网页?

我刚从 curl 开始,我已经设法拉出一个外部网站:

function get_data($url) {
  $ch = curl_init();
  $timeout = 5;
  curl_setopt($ch,CURLOPT_USERAGENT, $userAgent);
  curl_setopt($ch,CURLOPT_URL,$url);
  curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
  curl_setopt($ch,CURLOPT_FOLLOWLOCATION,true);
  $data = curl_exec($ch);
  curl_close($ch);
  return $data;
}
$test = get_data("http://www.selfridges.com");
echo $test;

但是不包括 CSS 和图像。我还需要检索 CSS 和图像,基本上是整个网站。有人可以发布一个简短的方法让我开始了解如何解析 CSS、图像和 URL 以让我继续前进吗?

4

2 回答 2

1

有比 PHP 更好的工具来做到这一点,例如。wget--page-requisites参数。

但请注意,自动抓取通常违反网站的 TOS。

于 2013-01-20T10:28:36.097 回答
0

PHP 有 HTML 解析器。有很多可用的,这里有一篇讨论这个的帖子:你如何在 PHP 中解析和处理 HTML/XML?

于 2013-01-20T10:32:31.237 回答