0

我目前正在尝试增加我对 PHP 的了解,并且我已经为自己设定了抓取网站并将我检索到的数据转换为 JSON 格式的任务。

这是我要解析的数据的示例行:

 <tr>
 <td class="first">
     <img id="ctl00_Content_ctl00_rptInfo_ctl01_Image1" alt="Active" src="../../images/t1.jpg" style="border-width:0px;" />              
 </td>
 <td >
      Copenhagen
 </td>
 <td>
      Sas
 </td>
 <td>
     SK537
 </td>
 <td>
     02 Apr 10:20
 </td>
 <td class="last">
     Delayed 11:30
 </td>
 </tr>

到目前为止,这是我的 PHP 代码:

$raw = file_get_contents($url);

$newlines = array("\t","\n","\r","\x20\x20","\0","\x0B");
$content = str_replace($newlines, "", html_entity_decode($raw));

$start = strpos($content,'<table width="100%" cellspacing="0" cellpadding="0" border="0" summary="Departure times detail information"');

$end = strpos($content,'</table>',$start) + 8;

$table = substr($content,$start,$end-$start);

preg_match_all("|<tr(.*)</tr>|U",$table,$rows);

foreach ($rows[0] as $row){

    if ((strpos($row,'<th')===false)){

        preg_match_all("|<td(.*)</td>|U",$row,$cells);

        $url_src = strip_tags($cells[0][0]);

        $airport = strip_tags($cells[0][1]);

        $airline = strip_tags($cells[0][2]);

            $flightnum = strip_tags($cells[0][3]);

            $schedule = strip_tags($cells[0][4]);

            $status = strip_tags($cells[0][5]);

        echo "{$url_src} - {$aiport} - {$airline} - {$flightnum} - {$schedule} -  {$status}<br>\n";

    }

}

我目前几乎可以正确获取所有值,除非我似乎无法为包含此值的单元格获取任何内容:

<td class="first">
     <img id="ctl00_Content_ctl00_rptInfo_ctl01_Image1" alt="Active" src="../../images/t1.jpg" style="border-width:0px;" />              
</td>

任何人都可以帮助我获取获取 img 字符串所需的内容,我很高兴能够<td></td>像这样获取整个字符串:

<img id="ctl00_Content_ctl00_rptInfo_ctl01_Image1" alt="Active" src="../../images/t1.jpg" style="border-width:0px;" />

但是,如果可以仅解析 src 字符串,那将非常有帮助。

4

1 回答 1

1

您的<img>标签根本没有打开,这就是您的正则表达式不会解析它的原因。

尝试:

<td class="first">
     <img id="ctl00_Content_ctl00_rptInfo_ctl01_Image1" alt="Active" src="../../images/t1.jpg" style="border-width:0px;" />              
</td>
于 2013-04-03T17:06:01.537 回答