0

在这个脚本中,我正在加载一个包含 80 个项目的 URL。在 simple_html_dom 的帮助下,对每个项目 'tr' 进行迭代,总共 80 个。

但是 foreach 循环在下面的代码中只迭代了 42 项。

<?php
include_once "simple_html_dom.php";
$job_links=array();
$main_url = "http://xyz.com/rescnt=80";
$html = new simple_html_dom();
$html->load_file($main_url);
$fun = $html->find('div[class=dontent_wrap]',0)->find('table',0);
$i=0;
echo count($fun->find('tr'));
foreach($fun->find('tr') as $tr){
    echo ++$i;
    $td = $tr->find( 'td',1);
    $a =  $td->find('a',0);
    $link = $a->href;
    $id = $a->id;
        $id = trim(preg_replace('/link/','',$id)); 
     $my_link ="http://xyz.com/details/".$id.".html";
    if(strpos($link, $my_link)!==false){
        $job_links[] =trim($my_link);

    }
}
echo 'count:'.count($job_links);
print_r($job_links);
?>

从循环中删除几行后,它迭代完成到 81。

foreach($fun->find('tr') as $tr){
    echo ++$i;
    $td = $tr->find( 'td',1);
}

我不知道出了什么问题。我已经花了我一天的时间。

这不是超时问题,因为我以前set_time_limit(0);不工作。

如果项目“tr”的数量减少到 40,那么循环将再次迭代到 21 同样的问题(它也告诉没有超时问题)

所有项目都是相同的,具有相同的类型和相同数量的元素。

4

2 回答 2

1

似乎 html 中缺少一个 td,所以:

 include("simple_html_dom.php");
$job_links=array();
$monster_main_url = "http://jobsearch.monsterindia.com/searchresult.html?day=1&res_cnt=80";
$html = new simple_html_dom();
$html->load_file($monster_main_url);
$fun = $html->find('div[class=dd_content_wrap]',0)->find('table',0);
$i=0;
echo count($fun->find('tr'));

foreach($fun->find('tr') as $tr){
    echo ++$i;


    $td = $tr->find( 'td',1);
    if($td!=NULL) {
    $a =  $td->find('a',0);


    $link = $a->href;
    $id = $a->id;
        $id = trim(preg_replace('/link/','',$id)); 
     $my_link ="http://jobs.monsterindia.com/details/".$id.".html";
    }

    else {

        $my_link="no link";

    }
    if(strpos($link, $my_link)!==false){
        $job_links[] =trim($my_link);

    }
}
echo '<br>count:'.count($job_links);
print_r($job_links);
于 2013-06-05T15:43:06.647 回答
0

打开错误:

ini_set('display_errors', 1);
error_reporting(E_ALL & ~E_NOTICE);

把它放在文件的开头。

于 2013-06-05T15:55:41.023 回答