5

我将 html 内容存储在数据库表中。在那个 html 内容中,我想用链接标签替换“一些单词”。但是,如果“某些单词”已经在链接标签内,我应该省略它们..

例如
内容

<p>Lorem ipsum dolor SOME WORDS, consectetur adipiscing elit. <a href="http://example.com">SOME WORDS</a> elementum pharetra velit at cursus. Quisque blandit, nibh at eleifend ullamcorper</p>

输出应该是

<p>Lorem ipsum dolor <a href="http://someurl">SOME WORDS</a>, consectetur adipiscing elit. <a href="http://example.com">SOME WORDS</a> elementum pharetra velit at cursus. Quisque blandit, nibh at eleifend ullamcorper</p>

如您所见,它应该在替换时排除现有的链接文本。

非常感谢一些进入正确轨道的指导。

4

4 回答 4

3

这是您可以使用DOMDocument而不是正则表达式来解决它的方法:

$contents = <<<EOS
<p>Lorem ipsum dolor SOME WORDS, consectetur adipiscing elit. <a href="http://example.com">SOME WORDS</a> elementum pharetra velit at cursus. Quisque blandit, nibh at eleifend ullamcorper</p>
EOS;

$doc = new DOMDocument;
libxml_use_internal_errors(true);
$doc->loadHTML($contents);
libxml_clear_errors();

$xp = new DOMXPath($doc);

// find all text nodes
foreach ($xp->query('//text()') as $node) {
        // make sure it's not inside an anchor
        if ($node->parentNode->nodeName !== 'a') {
                $node->nodeValue = str_replace(
                    'SOME WORDS', 
                    'SOME OTHER WORDS', 
                    $node->nodeValue
                );
        }
}
// DOMDocument creates a full document and puts your fragment inside a body tag
// So we enumerate the children and save their HTML representation
$body = $doc->getElementsByTagName('body')->item(0);
foreach ($body->childNodes as $node) {
        echo $doc->saveHTML($node);
}
于 2012-12-15T09:09:10.783 回答
1

简单的正则表达式只有在它是确切的短语并且在链接内没有任何其他符号或单词时才有效。您可以通过计算在出现之前存在打开和关闭链接标签的次数来遍历所有出现的SOME WORDS以查看它们是否在链接内。试试这个代码:

$str = '<p>Lorem ipsum dolor SOME WORDS, consectetur adipiscing elit. <a href="http://example.com">SOME WORDS</a> elementum pharetra velit at cursus. Quisque blandit, nibh at eleifend ullamcorper</p>';
echo 'Before:' . $str;
$str_lc = strtolower($str);
$phrase = 'SOME WORDS';
$link = '<a href="http://someurl">SOME WORDS</a>';
$offset = 0;
while($position = strpos($str, $phrase, $offset))
{
    if (substr_count($str_lc, "<a", 0, $position) <= substr_count($str_lc, "</a>", 0, $position)) {
        $str = substr_replace($str, $link, $position, strlen($phrase));
        $str_lc = strtolower($str);
        $offset = $position + strlen($link) - strlen($phrase);
    } else {
        $offset = $position + 1;
    }
}
echo 'After:' . $str;
于 2012-12-15T06:47:02.473 回答
1

如果您有 3 条线的空间,这将是一个安全的选择:

$text=preg_replace('~<a(.*)(SOME WORDS)(.*)</a>~','<a$1PLACEHOLDER$3</a>',$text);
$text=preg_replace('~SOME WORDS~','REPLACEMENT WORDS',$text);
$text=preg_replace('~PLACEHOLDER~','SOME WORDS',$text);

它将使用 PLACEHOLDER 文本/标签/任何内容,因此您不会替换链接内容(如果有的话)。

于 2012-12-15T07:05:13.860 回答
0

这应该可以解决问题。

如果 SOME WORDS 被标签包围,只需检查正则表达式

preg_replace('/[^>]SOME WORDS[^<]/','<a href="http://someurl">SOME WORDS</a>',$str);
于 2012-12-15T06:40:09.047 回答