php - 如何解析 curl URL、CSS 和图像？

Question

可能重复：
如何以编程方式保存网页？

我刚从 curl 开始，我已经设法拉出一个外部网站：

function get_data($url) {
  $ch = curl_init();
  $timeout = 5;
  curl_setopt($ch,CURLOPT_USERAGENT, $userAgent);
  curl_setopt($ch,CURLOPT_URL,$url);
  curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
  curl_setopt($ch,CURLOPT_FOLLOWLOCATION,true);
  $data = curl_exec($ch);
  curl_close($ch);
  return $data;
}
$test = get_data("http://www.selfridges.com");
echo $test;

但是不包括 CSS 和图像。我还需要检索 CSS 和图像，基本上是整个网站。有人可以发布一个简短的方法让我开始了解如何解析 CSS、图像和 URL 以让我继续前进吗？

score 1 · Accepted Answer

有比 PHP 更好的工具来做到这一点，例如。wget与--page-requisites参数。

但请注意，自动抓取通常违反网站的 TOS。

score 0 · Accepted Answer

PHP 有 HTML 解析器。有很多可用的，这里有一篇讨论这个的帖子：你如何在 PHP 中解析和处理 HTML/XML？

php - 如何解析 curl URL、CSS 和图像？

2 回答 2

Related

Reference