0

我想做一个网络爬虫新闻。我想从链接http://vnexpress.net/tin-tuc/ban-doc-viet/xa-hoi/chay-xe-may-theo-taxi-moi-biet-bi-chem-60-000-加载内容dong-2865724.html,我想获取所有内容 div 类 fck_detail并保留原始标签。这个怎么做 ?

    <div class="fck_detail">
    <p class="Normal" style="text-align:justify;">Some texts</p>
    <p class="Normal" style="text-align:justify;">some texts</p>
    <p class="Normal" style="text-align:justify;">Some texts</p>
    <p class="Normal" style="text-align:justify;">Some texts</p>
    </div>

我试过但没有成功

    $doc = new DOMDocument();
    $doc->loadHTMLFile("http://example.com/some.html");
    $selector = new DOMXpath($doc);   
    $node = $selector->query('//div[@class="fck_detail"]')->item(0);
    echo trim($node->nodeValue);

上面的代码只给了我从所有 HTML 中剥离的纯文本。但我想保留 HTML。

4

0 回答 0