0

我需要在包含具有其他一些属性的标签的 html 字符串的开头移动一个值属性。

它可以传递给我这样的东西

<option (attrs1)* value="1" (attrs2)*>...</option>
<option (attrs1)* value='1' (attrs2)*>...</option>
<option (attrs1)* value=1 (attrs2)*>...</option>

它应该是

<option value="1" (attrs1)* (attrs2)*>...</option>
<option value='1' (attrs1)* (attrs2)*>...</option>
<option value=1 (attrs1)* (attrs2)*>...</option>

如何通过 .Net 中的正则表达式来完成?

  • 这是一个训练练习
4

2 回答 2

3

这是一个如何使用HtmlAgilityPack做到这一点的示例。如果您仍想使用正则表达式,请参阅答案的另一部分。

string html = @"<option foo1='bar1' value=""1"" foo=bar></option>";
var doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);

var node = doc.DocumentNode.ChildNodes[0];
//Get all the attributes
var attributes = new List<HtmlAttribute>(node.Attributes);
//Remove all the attributes
node.Attributes.RemoveAll();

//Insert them again
foreach (var attr in attributes) {
    //If we found the 'value' atrribute, insert it at the begining
    if (attr.Name == "value")
    {
        node.Attributes.Insert(0, attr);
    }
    else {
        node.Attributes.Add(attr);
    }
}

Console.WriteLine(doc.DocumentNode.OuterHtml);

上面的代码将打印:

<option value="1" foo="bar" foo1='bar1'>

那只是一个例子。您可以对 HTML 上的所有节点执行此操作,或者仅将其应用于您需要的节点等。


另一个使用正则表达式的例子。您可能需要进行修改以 100% 满足您的需求。

string regex = @"<([\w]+)\s+(?:(\w+)=[""']?([^\s""']+)[""']?\s*)+>";
string html = @"<option foo=bar value=""1"" foo2='bar2'>...</option>
                <option foo=bar value=""1"" foo2='bar2'>...</option>
                <option foo=bar value=""1"" foo2='bar2'>...</option>";

//Getting all the matches.
var matches = Regex.Matches(html, regex);
foreach (Match m in matches) {
    //This will contain the replaced string
    string result = string.Format("<{0}", m.Groups[1].Value);

    //Here we will store all the keys
    var keys = new List<string>();
    //Here we will store all the values
    var values = new List<string>();

    //For every pair (key, value) matched
    for (int i = 0; i < m.Groups[2].Captures.Count; i++) {
        //Get the key
        var key = m.Groups[2].Captures[i].Value;
        //Get the value
        var value = m.Groups[3].Captures[i].Value;

        //Insert on the list (if key is 'value', insert at the beginning)
        if (key == "value") {
            keys.Insert(0, key);
            values.Insert(0, value);
        }
        else {
            keys.Add(key);
            values.Add(value);
        }
    }

    //Concatenate all the (key, value) attributes to the replaced string
    for (int i = 0; i < keys.Count; i++) {
        result += string.Format(@" {0}=""{1}""", keys[i], values[i]);
    }

    //Close the tag
    result += ">";

    Console.WriteLine(result);
}

这将打印:

<option value="1" foo="bar" foo2="bar2">
<option value="1" foo="bar" foo2="bar2">
<option value="1" foo="bar" foo2="bar2">
于 2013-02-06T07:59:02.377 回答
0

免责声明:这是一个基于 Javascript 的解决方案,但我想,.Net 为正则表达式提供与 Python 和 Ruby 等其他语言相同的支持,因此该方法应该是有效的(减去特定于语言的语法)。它在这里表明它可以只使用一个正则表达式来完成。

正则表达式背后的想法是找到标记的开头、“value=...”部分以及介于两者之间的所有内容。然后使用替换功能重新组织找到的部分,因此“值”标签总是在开始标签之后。

好的,这里是(Javascript版本):

// some example string
var x = "<something bla=5432 other-st='asdf' value=\"45\"/><p name=asdf value=55fs andalso=\"something\">html like</p>";
x.replace(/(\<(?!\/)[a-z]+)(.+?)?(\ value=(?:\"|\')?[^\"\'\ ]+(?:\"|\')?)/gi, function(a, b, c, d) {return b+d+c;})

更新:这是C# 版本(由 fX 提供):

string x = "<something bla=5432 other-st='asdf' value=\"45\"/><p name=asdf value=55fs andalso=\"something\">html like</p>";
var r = new Regex("(<(?!/)[a-z]+)(.+?)?(\\sVALUE=(?:\"|')?[^\"'\\s]+(?:\"|')?)", RegexOptions.IgnoreCase);
string s = r.Replace(x, (match) => { return match.Groups[1].Value + match.Groups[3].Value + match.Groups[2].Value; });
于 2013-02-06T08:38:27.553 回答