5

我只是从提到的 Parser 开始,并以某种方式直接从一开始就解决问题。

参考本教程:

http://net.tutsplus.com/tutorials/php/html-parsing-and-screen-scraping-with-the-simple-html-dom-library/

我现在只想在具有类 ClearBoth Box 的 div 的源代码中找到内容

我用 curl 检索代码并创建一个简单的 html dom 对象:

$cl = curl_exec($curl);  
$html = new simple_html_dom();
$html->load($cl);

然后我想将 div 的内容添加到一个名为 divs 的数组中:

$divs = $html->find('div[.ClearBoth Box]');

但是现在,当我 print_r $divs 时,它提供了更多,尽管源代码在 div 中没有更多。

像这样:

Array
(
    [0] => simple_html_dom_node Object
        (
            [nodetype] => 1
            [tag] => br
            [attr] => Array
                (
                    [class] => ClearBoth
                )

            [children] => Array
                (
                )

            [nodes] => Array
                (
                )

            [parent] => simple_html_dom_node Object
                (
                    [nodetype] => 1
                    [tag] => div
                    [attr] => Array
                        (
                            [class] => SocialMedia
                        )

                    [children] => Array
                        (
                            [0] => simple_html_dom_node Object
                                (
                                    [nodetype] => 1
                                    [tag] => iframe
                                    [attr] => Array
                                        (
                                            [id] => ShowFacebookButtons
                                            [class] => SocialWeb FloatLeft
                                            [src] => http://www.facebook.com/plugins/xxx
                                            [style] => border:none; overflow:hidden; width: 250px; height: 70px;
                                        )

                                    [children] => Array
                                        (
                                        )

                                    [nodes] => Array
                                        (
                                        )

我不明白为什么 $divs 不只是来自 div 的代码?

以下是网站上的源代码示例:

<div class="ClearBoth Box">
          <div>
<i class="Icon SmallIcon ProductRatingEnabledIconSmall" title="gute peppige Qualität: Sehr empfehlenswert"></i>
<i class="Icon SmallIcon ProductRatingEnabledIconSmall" title="gute peppige Qualität: Sehr empfehlenswert"></i>
<i class="Icon SmallIcon ProductRatingEnabledIconSmall" title="gute peppige Qualität: Sehr empfehlenswert"></i>
<i class="Icon SmallIcon ProductRatingEnabledIconSmall" title="gute peppige Qualität: Sehr empfehlenswert"></i>
<i class="Icon SmallIcon ProductRatingEnabledIconSmall" title="gute peppige Qualität: Sehr empfehlenswert"></i>

              <strong class="AlignMiddle LeftSmallPadding">gute peppige Qualität</strong> <span class="AlignMiddle">(17.03.2013)</span>
          </div>
          <div class="BottomMargin">
            gute Verarbeitung, schönes Design,
          </div>
        </div>

我究竟做错了什么?

4

3 回答 3

8
$html = new simple_html_dom();   
$html->load($output); 
$items = $html->find('div.youclassname',0)->children(1)->outertext; 
print_r($items);
于 2013-05-20T14:46:20.893 回答
7

获取带有类的 div 的正确代码是:

$ret = $html->find('div.foo');
//OR
$ret = $html->find('div[class=foo]');

基本上,您可以像使用 CSS 选择器一样获取元素。

来源:http ://simplehtmldom.sourceforge.net/manual.htm
如何找到 HTML 元素?部分,选项卡高级

于 2013-04-02T09:57:07.263 回答
0

找到以下元素:DIV -> class(product-inner clearfix) -> class(price)可以使用以下 XPath:

foreach($html->find('div[class=product-inner  clearfix]') as $element){
        $itemPrice = $element->find('.price',0)->plaintext;
        echo $itemPrice;
    }
于 2019-09-27T06:58:08.250 回答