7

我正在使用 c#。我有以下字符串

<li> 
    <a href="abc">P1</a> 
    <ul>
        <li><a href = "bcd">P11</a></li>
        <li><a href = "bcd">P12</a></li>
        <li><a href = "bcd">P13</a></li>
        <li><a href = "bcd">P14</a></li>
    </ul>
</li>
<li> 
    <a href="abc">P2</a> 
    <ul>
        <li><a href = "bcd">P21</a></li>
        <li><a href = "bcd">P22</a></li>
        <li><a href = "bcd">P23</a></li>
    </ul>
</li>
<li> 
    <a href="abc">P3</a> 
    <ul>
        <li><a href = "bcd">P31</a></li>
        <li><a href = "bcd">P32</a></li>
        <li><a href = "bcd">P33</a></li>
        <li><a href = "bcd">P34</a></li>
    </ul>
</li>
<li> 
    <a href="abc">P4</a> 
    <ul>
        <li><a href = "bcd">P41</a></li>
        <li><a href = "bcd">P42</a></li>
    </ul>
</li>

我的目标是从上面的字符串中填写以下列表。

List<class1>

class1 有两个属性,

string parent;
List<string> children;

它应该在 parent 中填写 P1,在 children 中填写 P11,P12,P13,P14,并列出它们。

任何建议都会有所帮助。

编辑

样本

public List<class1> getElements()
{
    List<class1> temp = new List<class1>();
    foreach(// <a> element in string)
    {
        //in the recursive loop
        List<string> str = new List<string>();
        str.add("P11");
        str.add("P12");
        str.add("P13");
        str.add("P14");

        class1 obj = new class1("P1",str);
        temp.add(obj);
    }
    return temp;
}

这些值在这里是硬编码的,但它是动态的。

4

3 回答 3

4

你想要的是一个递归下降解析器。使用库的所有其他建议基本上都是建议您对他人编写的 HTML 或 XML 使用递归下降解析器。

递归下降解析器的基本结构是对令牌列表(在您的情况下为字符串)进行线性搜索,并在遇到分隔子实体的令牌时再次调用解析器以处理令牌子列表(子字符串)。

你可以谷歌搜索“递归下降解析器”这个词,并找到很多有用的结果。在这种情况下,即使是 Wikipedia 文章也相当不错,并且包含 C 中递归下降解析器的示例。

于 2012-11-30T14:05:03.000 回答
3

如果你不能像我推荐的那样使用第三方工具,Html Agility Pack你可以使用 Webbrowser类和HtmlDocument类来解析 HTML:

WebBrowser wbc = new WebBrowser();
wbc.DocumentText = "foo"; // necessary to create the document
HtmlDocument doc = wbc.Document.OpenNew(true);
doc.Write((string)html); // insert your html-string here
List<class1> elements = wbc.Document.GetElementsByTagName("li").Cast<HtmlElement>()
    .Where(li => li.Children.Count == 2)
    .Select(outerLi => new class1
    {
        parent = outerLi.FirstChild.InnerText,
        children = outerLi.Children.Cast<HtmlElement>()
            .Last().Children.Cast<HtmlElement>()
            .Select(innerLi => innerLi.FirstChild.InnerText).ToList()
    }).ToList();

这是调试器窗口中的结果:

在此处输入图像描述

于 2012-11-30T14:07:08.477 回答
1

您还可以使用 XmlDocument:

XmlDocument doc = new XmlDocument();
doc.LoadXml(yourInputString);
XmlNodeList colNodes = xmlSource.SelectNodes("li");
foreach (XmlNode node in colNodes)
{
    // ... your logic here
    // for example
    // string parentName = node.SelectSingleNode("a").InnerText;
    // string parentHref = node.SelectSingleNode("a").Attribures["href"].Value;
    // XmlNodeList children = 
    //       node.SelectSingleNode("ul").SelectNodes("li");
    // foreach (XmlNode child in children)
    // {
    //         ......
    // }
}
于 2012-11-30T14:27:16.030 回答