0

我正在使用PHP Simple HTML DOM Parser从页面中提取 URL 列表,如下所示:

<?php
include('simple_html_dom.php');
$url = 'http://www.domain.com/';
$html = file_get_html($url);
foreach($html->find('table[width=370]') as $table)
    {
    foreach($table->find('a') as $item)
        echo $item->outertext . '<br><hr>';
    }
$html->clear();
?>

就提取所需信息而言,它工作得很好,但是,一些a 标签(在 domain.com 上)的格式如下:

<a href="http://www.domain.com"><font size="2">Anchor text</font></a>

而在其他情况下,字体大小是在包含每个 a 标签的 p 标签中定义的,这意味着 a 标签显示为:

<a href="http://www.domain.com">Anchor text</a>

有没有办法从那些有字体标签的标签中去掉字体标签?这可能很简单,但多年来我一直在“绕圈子”试图做到这一点:(

感谢您提出的任何想法或建议。

汤姆。

4

1 回答 1

3

strip_tags()也许?

如果您只想允许a标签,只需使用:

echo strip_tags($item->outertext, 'a');
于 2012-04-14T19:11:46.067 回答