首先,我见过很多类似的问题。我知道可以使用正则表达式或 dom,但我找不到任何好的 DOM 示例,而正则表达式让我抓狂。另外,我需要从 html 源中提取多个值,一些简单的内容,一些属性。
这是我需要从中获取信息的 html 示例:
<div class="log">
<div class="message">
<abbr class="dt" title="time string">
DATA_1
</abbr>
:
<cite class="user">
<a class="tel" href="tel:+xxxx">
<abbr class="fn" title="DATA_2">
Me
</abbr>
</a>
</cite>
:
<q>
DATA_3
</q>
</div>
</div>
“消息”块可能出现一次或数百次。我试图最终得到这样的数据:
array(4) {
[0] => array(3) {
["time"] => "DATA_1"
["name"] => "DATA_2"
["message"] => "DATA_3"
}
[1] => array(3) {
["time"] => "DATA_1"
["name"] => "DATA_2"
["message"] => "DATA_3"
}
[2] => array(3) {
["time"] => "DATA_1"
["name"] => "DATA_2"
["message"] => "DATA_3"
}
[3] => array(3) {
["time"] => "DATA_1"
["name"] => "DATA_2"
["message"] => "DATA_3"
}
}
我尝试使用 simplexml,但它似乎只适用于非常简单的 html 页面。有人可以将我链接到一些例子吗?我真的很困惑,因为我需要从标题属性中获取 DATA_2。您认为提取他的数据的最佳方法是什么?它似乎与我所做的 XML 提取非常相似,但我需要使用其他方法。