php - 从php解析网页

Question

我正在努力建立我的新网站，但我无法找出进行解析的最佳方法。

我正在做的是试图解析这个网页的评论（最后 3 个）“最新消息”页面、权限页面和右栏（带有评级等的那个）。

我查看了 parse_url 和其他一些方法，但根本没有任何效果。

任何帮助表示赞赏，示例更好！提前致谢。

score 2 · Accepted Answer

我建议使用 DOM 来完成这项工作，这是一个获取网站中所有 url 的示例：

$doc = new DOMDocument();
$doc->loadHTMLFile('http://www.theurlyouwanttoscrape.com');

foreach( $doc->getElementsByTagName('a') as $item){
    $href =  $item->getAttribute('href');
    var_dump($href);
}

score 1 · Accepted Answer

parse_url解析实际的 URL（不是 URL 指向的页面）。

您要做的是抓取它指向的网页，然后从那里获取内容。您需要使用fopen，它将为您提供页面的 HTML 源代码，然后解析 HTML 并获取您需要的内容。

免责声明：并不总是允许抓取页面。

score 1 · Accepted Answer

1

简单的 HTML DOM

我使用它并且效果很好。提供的链接中的示例。

于 2012-01-04T03:53:54.023 回答

score 0 · Accepted Answer

0

PHP SimpleXML 扩展是你的朋友：http: //php.net/manual/en/book.simplexml.php

于 2012-01-04T03:48:08.487 回答

php - 从php解析网页

4 回答 4

Related

Reference