1

我正在尝试编写一个 preg_replace 来清除允许标签的所有标签属性,以及允许列表中不存在的所有标签。

基本示例 - 这个:

<p style="some styling here">Test<div class="button">Button Text</div></p> 

结果会是:

<p>test</p>

我有这个工作得很好.. 除了 img 标签和 href 标签。我不需要清理 img 和 a 标签的属性。可能是其他人。我不确定是否有办法设置两个允许列表?

1) 一份清单,列出清理后允许留下
的标签 2) 一份清单,列出允许但不理会的标签?
3) 其余的被删除。

这是我正在处理的脚本:

$string = '<p style="width: 250px;">This is some text<div class="button">This is the button</div><br><img src="waves.jpg" width="150" height="200" /></p><p><b>Title</b><br>Here is some more text and <a href="#" target="_blank">this is a link</a></p>';

$output = strip_tags($string, '<p><b><br><img><a>');
$output = preg_replace("/<([a-z][a-z0-9]*)[^>]*?(\/?)>/i", '<$1$2$3$4$5>', $output);

echo $output;

此脚本应将 $string 清理为:

<p>This is some text<br><img src="waves.jpg" width="150" height="200" /></p><p><b>Title</b><br>Here is some more text and <a href="#" target="_blank">this is a link</a></p>
4

1 回答 1

1

http://ideone.com/aoOOUN

此函数将剥离一个不允许的子元素,清理其“剥离”的子元素,并留下其余的(递归)。

function clean($element, $allowed, $stripped){
    if(!is_array($allowed) || ! is_array($stripped)) return;
    if(!$element)return;
    $toDelete = array();
    foreach($element->childNodes as $child){
        if(!isset($child->tagName))continue;
        $n = $child->tagName;
        if ($n && !in_array($n, $allowed) && !in_array($n, $stripped)){
            $toDelete[] = $child;
            continue;
        }
        if($n && in_array($n, $stripped)){
            $attr = array();
            foreach($child->attributes as $a)
                $attr[] = $a->nodeName;
            foreach($attr as $a)
                $child->removeAttribute($a);
        }
        clean($child, $allowed, $stripped);
    }
    foreach ($toDelete as $del)
        $element->removeChild($del);
}

这是清理字符串的代码:

$xhtml = '<p style="width: 250px;">This is some text<div class="button">This is the button</div><br><img src="waves.jpg" width="150" height="200" /></p><p><b>Title</b><br>Here is some more text and <a href="#" target="_blank">this is a link</a></p>';

$dom = new DOMDocument();
$dom->loadHTML($xhtml);
$body = $dom->getElementsByTagName('body')->item(0);
clean($body, array('img', 'a'), array('p', 'br', 'b'));
echo preg_replace('#^.*?<body>(.*?)</body>.*$#s', '$1', $dom->saveHTML($body));

您应该查看PHP 的 DOM 类的文档

于 2013-06-10T17:41:46.770 回答