3

我有一个非常简单的任务,我试图在字符串中查找和替换特殊字符。我的正则表达式正在工作,但有时字符串中有斜体标签,但我不想替换;我需要替换导致斜体标签变形的独立“<”和“>”字符。有没有办法让我匹配特殊字符但排除斜体模式?这是我的代码:

string sampleText = "<i>This should be in italics</i> but this ¶ character needs to be removed"; 
string sPattern = "[―&amp;<>♫♪–‧₢₳-⅓⅟□¡¢£¤¥¦§¨©ª«¬®¯°±²³´µ¶•¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕ×ØÙÚÛÜÝÞßàáãäåæçèéêëìíîïðñòóôö÷øùüýþÿŒœŠšŸŽžƒ˜-‰›¢€°]";
string replacePattern = "";

string text = System.Text.RegularExpressions.Regex.Replace(sampleText, sPattern, replacePattern, System.Text.RegularExpressions.RegexOptions.IgnoreCase);

当我的程序执行时,我得到了这个:

iThis should be in italics/i but this character needs to be removed

那么我可以匹配我的特殊字符但排除斜体标签吗?如果这不可能,我能想到的唯一解决方案是通过一些字符串处理删除斜体标签,然后用我的正则表达式验证结果,然后将斜体标签放回..

有任何想法吗?

4

2 回答 2

4

这是一个简单的方法:

string sampleText = "<i>This should be in italics</i> but this ¶ character needs to be removed"; 
string sPattern = "(</?i>)|[―&amp;<>♫♪–‧₢₳-⅓⅟□¡¢£¤¥¦§¨©ª«¬®¯°±²³´µ¶•¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕ×ØÙÚÛÜÝÞßàáãäåæçèéêëìíîïðñòóôö÷øùüýþÿŒœŠšŸŽžƒ˜-‰›¢€°]";
string replacePattern = "$1";

string text = Regex.Replace(sampleText, sPattern, replacePattern, RegexOptions.IgnoreCase);

Console.WriteLine(text); 
// <i>This should be in italics</i> but this  character needs to be removed

但这仅适用于<i></i>标签。您可以很容易地将其扩展到其他标签(例如"(</?\w+>)|...",对于任何没有属性的简单标签),但如果您变得比这更复杂,我建议首先将输入解析为 XML,并且仅将模式应用于节点的文本你有兴趣。

于 2013-07-17T18:38:29.000 回答
0

你可以使用这个:

string sPattern = @"(?i)[^<>a-z0-9\s\p{P}]+|<(?!/?i>)|(?<!</?i)>";
string replacePattern = "";

(您可以用要保留的标点符号替换 \p{P})

于 2013-07-17T18:42:07.440 回答