我有这段代码可以获取页面的 HTML 源代码:
$page = file_get_contents('http://example.com/page.html');
$page = htmlentities($page);
我想从中刮一些内容。例如,假设页面的源包含以下内容:
<strong>technorati.com</strong><br />
Connection failed<br /><br />Pinging <strong>icerocket.com</strong><br />
Connection failed<br /><br />Pinging <strong>weblogs.com</strong><br />
Done<br /><br />Pinging <strong>newsgator.com</strong><br />
Done<br /><br />Pinging <strong>blo.gs</strong><br />
Done<br /><br />Pinging <strong>feedburner.com</strong><br />
Done<br /><br />Pinging <strong>blogstreet.com</strong><br />
Done<br /><br />Pinging <strong>my.yahoo.com</strong><br />
Connection failed<br /><br />Pinging <strong>moreover.com</strong><br />
Connection failed<br /><br />Pinging <strong>newsisfree.com</strong><br />
Done<br />
有没有一种方法可以从源代码中抓取它并将其存储在一个变量中,所以它看起来像这样:
technorati.com连接失败
icerocket.com连接失败
eblogs.com完成
等。
当然,页面是动态的,这就是我遇到问题的原因。我可以搜索源中的每个站点吗?但是那我将如何得到它之后的结果呢?(连接失败/完成)
非常感谢您的帮助!