我正在努力建立我的新网站,但我无法找出进行解析的最佳方法。
我正在做的是试图解析这个网页的评论(最后 3 个)“最新消息”页面、权限页面和右栏(带有评级等的那个)。
我查看了 parse_url 和其他一些方法,但根本没有任何效果。
任何帮助表示赞赏,示例更好!提前致谢。
我建议使用 DOM 来完成这项工作,这是一个获取网站中所有 url 的示例:
$doc = new DOMDocument();
$doc->loadHTMLFile('http://www.theurlyouwanttoscrape.com');
foreach( $doc->getElementsByTagName('a') as $item){
$href = $item->getAttribute('href');
var_dump($href);
}
parse_url
解析实际的 URL(不是 URL 指向的页面)。
您要做的是抓取它指向的网页,然后从那里获取内容。您需要使用fopen
,它将为您提供页面的 HTML 源代码,然后解析 HTML 并获取您需要的内容。
免责声明:并不总是允许抓取页面。
我使用它并且效果很好。提供的链接中的示例。
PHP SimpleXML 扩展是你的朋友:http: //php.net/manual/en/book.simplexml.php