我正在使用PHP Simple HTML DOM Parser从页面中提取 URL 列表,如下所示:
<?php
include('simple_html_dom.php');
$url = 'http://www.domain.com/';
$html = file_get_html($url);
foreach($html->find('table[width=370]') as $table)
{
foreach($table->find('a') as $item)
echo $item->outertext . '<br><hr>';
}
$html->clear();
?>
就提取所需信息而言,它工作得很好,但是,一些a 标签(在 domain.com 上)的格式如下:
<a href="http://www.domain.com"><font size="2">Anchor text</font></a>
而在其他情况下,字体大小是在包含每个 a 标签的 p 标签中定义的,这意味着 a 标签显示为:
<a href="http://www.domain.com">Anchor text</a>
有没有办法从那些有字体标签的标签中去掉字体标签?这可能很简单,但多年来我一直在“绕圈子”试图做到这一点:(
感谢您提出的任何想法或建议。
汤姆。