这是我要抓取的 HTML 片段:
<div class="dot"><hr/></div>
<h2>Description</h2>
<p>This is the information I am trying to scrape</p>
</div>
我不认为我可以使用 XPath 来检索它的内容,<p>
因为它没有 id 也没有类,并且取决于上面的其他信息,firebug 提供的 XPath 可以是/html/body/div[3]/div/div[???]/p[2]
- where ??? 是 1-5 之间的数字。
如果这是正确的,那么我猜它又回到了一个很好的旧正则表达式(我没用),不幸的是,这是我想出的最好的尝试抓住它:
preg_match('/<h2>Description<\/h2>\s*<p>(.+)<\/p>/',$html,$rawdesc);
当然它不起作用....否则我不会把自己扔给你的怜悯:)