4

假设我有一个 HTML 页面,如下所示:

<!-- This is the opening tag -->
<div class="content_text">
  <div>Title</div>
  <div>Author Name</div>
  <div>Some complicated HTML elements correctly validated</div>
  <b>Some more text</b>
  <img ... />
  <div> more and more text </div>
</div><!-- This is the correct closing tag -->

如何获取 div 的开头class="content_text"和正确的结束标签之间的内容?

我尝试了正则表达式,但我找不到任何简单甚至困难的方法来做到这一点。

我尝试了XPath,但仍然无法获取内容。相反,我得到了外部 div 内的文本。

4

4 回答 4

5

您可以使用PHP Simple HTML DOM Parser来解析 HTML,就像解析DOMDocumentXML 一样。

注意: PHP 也直接支持 DOMDocument

于 2013-04-09T22:22:06.027 回答
4
    $scrape_address = "http://www.al-madina.com/node/444862";
    $ch = curl_init($scrape_address);
    curl_setopt ($ch, CURLOPT_RETURNTRANSFER, '1'); 
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_ENCODING, "");
    $data = curl_exec($ch);
    // I couldn't get an element by Attribute so I just replaced class to id
    $data = str_replace('class="content_text"','id="my_unique_id"',$data);

    $domd = new DOMDocument();
    libxml_use_internal_errors(true);
    $domd->loadHTML($data);
    libxml_use_internal_errors(false);
    $div = $domd->getElementById("my_unique_id");

    if ($div) {
      $dom2 = new DOMDocument();
      $dom2->appendChild($dom2->importNode($div, true));
      echo $dom2->saveHTML();
    } else {
      echo "Nothing found";
    }
于 2013-04-09T22:22:33.457 回答
2

我建议使用 PHP 的DOMDocument - 除非内容的结构总是完全相同,否则正则表达式不会这样做,即使那样它也不会很漂亮。

另外,这里有一个关于使用 SimpleXML 解决的类似情况的问题,也许可以提供帮助。

于 2013-04-09T22:22:53.687 回答
0

您似乎已经能够成功运行 XPath 查询,所以我将省略 PHP 代码并直接进入 XPath 部分。

不确定您所说的“内容”是什么意思,所以我提供了一些替代方案:

您希望所有文本节点都在<div/>

//div[@class="content_text"]//text()

您希望所有 XML 包括元素:

//div[@class="content_text"]

两者都会返回一组结果,一定要循环它。

于 2013-04-09T22:52:12.623 回答