5

我有一个字符串,里面可能有多个 cdata 标签:

<![CDATA[A Survey of Applications of Identity-Based Cryptography in Mobile Ad-Hoc Networks]]>

我正在使用 javascript/jquery,我需要删除多个 cdata 标签(用“”替换它们)。

我怎么能用正则表达式写这个?

4

1 回答 1

6

@Jim Garrison 在上面的评论中是正确的:没有办法用正则表达式健壮地解析 XML/HTML。该语言过于复杂,无法用正则表达式表示。

但是,这并不意味着您不能编写涵盖大多数合理情况的正则表达式,这可能足以满足您的需求。例如,以下 JavaScript 正则表达式将主要执行您想要的操作:

input.replace( /<!\[CDATA\[.*?\]\]>/g, '' );

此正则表达式中有两点值得注意:.*?CDATA 主体中的通配符 ( ) 使用?修饰符变得惰性。没有它,会发生以下坏事:

'before <![CDATA[blah]]> some stuff between <![CDATA[another cdata]]> after'
    .replace( /<!\[CDATA\[.*\]\]>/g, '' );
// returns "before  after" when we probably 
// wanted "before  some stuff between  after"

另一件事是我们使用g标志来指示应该替换所有匹配项。否则只会替换第一个匹配项。

阅读评论,您可能只想简单地去除 CDATA 标记,同时保持其内容不变。正如@Jim Garrison 在上面指出的那样,这是一个坏主意,因为您很容易留下无效的HTML;这就是 CDATA 的全部意义所在。但是,如果您确实想这样做,请执行以下操作:

'outside <![CDATA[(cdata1)]]> inside <![CDATA[(cdata2)]]> after'
    .replace( /<!\[CDATA\[(.*?)\]\]>/g, '$1' );
// yields "outside (cdata1) inside (cdata2) after"
于 2013-07-05T17:20:48.203 回答