0

我有一个很大的 htmlencoded 字符串,我只想解码特定的列入白名单的 html 标签。

有没有办法在 c# 中做到这一点,WebUtility.HtmlDecode() 解码所有内容。

`我正在寻找将通过以下测试的 DecodeSpecificTags() 的实现。

    [Test]
    public void DecodeSpecificTags_SimpleInput_True()
    {
        string input = "<span>i am <strong color=blue>very</strong> big <br>man.</span>";
        string output = "&lt;span&gt;i am <strong color=blue>very</strong> big <br>man.&lt;/span&gt;";
        List<string> whiteList = new List<string>(){ "strong","br" } ;

        Assert.IsTrue(DecodeSpecificTags(whiteList,input) == output);
    }`
4

3 回答 3

1

更好的方法可能是使用一些 html 解析器,如 Agilitypack 或 csquery 或 Nsoup 来查找特定元素并在循环中对其进行解码。

检查此链接和解析器示例

检查它,我使用 csquery 做到了:

string input = "&lt;span&gt;i am &lt;strong color=blue&gt;very&lt;/strong&gt; big &lt;br&gt;man.&lt;/span&gt;";
string output = "&lt;span&gt;i am <strong color=blue>very</strong> big <br>man.&lt;/span&gt;";

var decoded = HttpUtility.HtmlDecode(output);
var encoded =input ; //  HttpUtility.HtmlEncode(decoded);

Console.WriteLine(encoded);
Console.WriteLine(decoded);

var doc=CsQuery.CQ.CreateDocument(decoded);

var paras=doc.Select("strong").Union(doc.Select ("br")) ;

var tags=new List<KeyValuePair<string, string>>();
var counter=0;

foreach (var element in paras)
{
    HttpUtility.HtmlEncode(element.OuterHTML).Dump();
    var key ="---" + counter + "---";
    var value= HttpUtility.HtmlDecode(element.OuterHTML);
    var pair= new KeyValuePair<String,String>(key,value);

    element.OuterHTML = key ;
    tags.Add(pair);
    counter++;
}

var finalstring= HttpUtility.HtmlEncode(doc.Document.Body.InnerHTML);
finalstring.Dump();

foreach (var element in tags)
{
finalstring=finalstring.Replace(element.Key,element.Value);
}

Console.WriteLine(finalstring);
于 2013-07-12T05:54:25.870 回答
1

你可以做这样的事情

public string DecodeSpecificTags(List<string> whiteListedTagNames,string encodedInput)
{
    String regex="";
    foreach(string s in whiteListedTagNames)
    {
        regex="&lt;"+@"\s*/?\s*"+s+".*?"+"&gt;";
        encodedInput=Regex.Replace(encodedInput,regex);
    }
    return encodedInput;
}
于 2013-07-12T05:55:54.483 回答
0

或者,您可以根据您的要求将 HtmlAgility 与黑名单或白名单一起使用。我正在使用列入黑名单的方法。我的黑名单标签存储在文本文件中,例如“script|img”

public static string DecodeSpecificTags(this string content, List<string> blackListedTags)
    {
        if (string.IsNullOrEmpty(content))
        {
            return content;
        }
        blackListedTags = blackListedTags.Select(t => t.ToLowerInvariant()).ToList();
        var decodedContent = HttpUtility.HtmlDecode(content);
        var document = new HtmlDocument();
        document.LoadHtml(decodedContent);
        decodedContent = blackListedTags.Select(blackListedTag => document.DocumentNode.Descendants(blackListedTag))
                .Aggregate(decodedContent,
                    (current1, nodes) =>
                        nodes.Select(htmlNode => htmlNode.WriteTo())
                            .Aggregate(current1,
                                (current, nodeContent) =>
                                    current.Replace(nodeContent, HttpUtility.HtmlEncode(nodeContent))));
        return decodedContent;
    }
于 2014-08-08T07:11:27.763 回答