2

我试图使用 PHPquery 来抓取网页(free-lance.ru)

Simple HTML Dom 中的等效代码正在运行:

include('simple_html_dom.php');

$shd = str_get_html($html);

$projects = array();
$i = 0;
foreach ($shd->find('.project-preview') as $work){
    $projects[$i]['name'] = $work->find('h3', 0)->children(1)->plaintext;
    $i++;
}

但我在 PHPQuery 中需要它。

我尝试使用类似的东西:

include('phpQuery.php');

$pq = phpQuery::newDocument($html);

foreach ($pq->find('.project-preview') as $work){
        echo 'wow';
}

但它不起作用... sizeof($pq->find('.project-preview')) 为 0

我将非常感谢任何帮助。

4

2 回答 2

8

我有同样的问题!所以回答这个问题的下一位访客。

简单的 HTML Dom 存在一些内存泄漏问题。当您通过其选择器“克隆”对象时,您必须非常小心。躲开它!

据我所知,使用 phpQuery 它只是一个清除所有命令的命令。

phpQuery::unloadDocuments();

我测试了phpQuery。看起来它没有内存泄漏。内存使用量也非常低。90 kB 的文件只有 4 kB。所以看起来它是实时解析的,并且内存中没有文档。至少这是我发现的,我可能是错的。

还尝试创建 20-30 个文档并每次都使用卸载,没有增加内存......很好!

这是我的答案:

include('phpQuery.php');

$pq = phpQuery::newDocument($html);

$projects = array();
$i = 0;

foreach ($pq['.project-preview'] as $work) {
    // iteration returns PLAIN dom nodes, NOT phpQuery objects
    $pqwork = pq($work);

    $projects[$i]['name'] = $pqwork['div']->eq(1)->text();
    // Unfortunately pq($work)['div']->eq(1)->text(); does not work

    $i++;
}

phpQuery::unloadDocuments();

如果我们有更多基本事物的示例,那就太好了!好的项目,糟糕的文档。或者至少我找不到解释 text() 函数的文档。

基准估计:

  • phpQuery 在加载文档方面要快 3.5 倍。

  • 简单的 HTML Dom 在选择时看起来要快 30% :(

于 2011-12-18T00:49:51.970 回答
1

你的代码看起来不错。这个基本上等效的代码对我来说运行得很好。

$q = phpQuery::newDocument('                                                    
<html>                                                                          
<body>                                                                          
<div class="findme">Lorem ipsum</div><div class="ignoreme">dolor sit amet</div> 
</body>                                                                         
</html>                                                                         
'                                                                               
);                                                                              

foreach($q->find('.findme')  as $tag) {                                         
    echo 'Found: '.$tag->tagName."(".$tag->getAttribute('class').")\n";         
}

结果:

找到:div(findme)

所以,问题就变成了:

  • 你有任何错误吗?(并且 error_reporting 是否打开?那么 display_errors 呢?)
  • 你的 HTML 是什么样的?

更新:

从您下面的评论中,事实证明您正在尝试使用newDocment(). 那是行不通的。您必须使用newDocumentFile()- 或自己读取文件内容,然后使用newDocument(),将您读取的内容传递给 phpQuery。

于 2011-02-22T09:56:22.933 回答