1

我正在努力建立我的新网站,但我无法找出进行解析的最佳方法。

我正在做的是试图解析这个网页的评论(最后 3 个)“最新消息”页面、权限页面和右栏(带有评级等的那个)。

我查看了 parse_url 和其他一些方法,但根本没有任何效果。

任何帮助表示赞赏,示例更好!提前致谢。

4

4 回答 4

2

我建议使用 DOM 来完成这项工作,这是一个获取网站中所有 url 的示例:

$doc = new DOMDocument();
$doc->loadHTMLFile('http://www.theurlyouwanttoscrape.com');

foreach( $doc->getElementsByTagName('a') as $item){
    $href =  $item->getAttribute('href');
    var_dump($href);
}
于 2012-06-22T10:47:47.237 回答
1

parse_url解析实际的 URL(不是 URL 指向的页面)。

您要做的是抓取它指向的网页,然后从那里获取内容。您需要使用fopen,它将为您提供页面的 HTML 源代码,然后解析 HTML 并获取您需要的内容。

免责声明:并不总是允许抓取页面。

于 2012-01-04T03:50:15.973 回答
1

简单的 HTML DOM

我使用它并且效果很好。提供的链接中的示例。

于 2012-01-04T03:53:54.023 回答
0

PHP SimpleXML 扩展是你的朋友:http: //php.net/manual/en/book.simplexml.php

于 2012-01-04T03:48:08.487 回答