4

我需要使用带有 C# 的 htmlagilitypack 检索包含在其他 2 个 html 元素中的 html 元素。

例如,我有以下内容:

<div id="div1" style="style definition here">
  <strong>
    <font face="Verdana" size="2">Your search request retrieved 0 matches.</font>
  </strong>
  <font face="Verdana" size="2">Some more text here.</font>
  <br><br>
  <!--more html here-->
</div>

我想返回之间的一切

<div id="div1">

和第一个

<br>

不返回其中任何一个元素。

我无法理解此所需的语法,所以如果有人可以向我解释在忽略结束标签的情况下获取存在于其他两个已知开始标签之间的 html 的最佳方法,我将不胜感激。

我还应该提到,我需要首先在完整网页的周围 html 中找到 id 为 div1 的 div。

我不需要实际节点与来自特定 HtmlDocument节点的节点具有引用相等性,它们只需要在内容方面相同。

4

1 回答 1

1

HtmlNode返回实例时,对同一节点的多次调用将产生相同的引用。您可以利用它来发挥自己的优势(尽管它是一个实现细节,所以要小心)。

基本上,你会得到所有的后代元素,直到有问题的节点。您选择要开始的节点:

HtmlNode divNode = doc.DocumentNode.SelectSingleNode("div[@id='div1']");

你想上去的节点:

// Note that in this case, working off the first node is not necessary, just
// convenient for this example.
HtmlNode brNode = divNode.SelectSingleNode("br");

然后使用上的TakeWhile扩展方法来获取所有元素,直到第二个元素,如下所示:Enumerable

// The nodes.
IEnumerable<HtmlNode> nodes = divNode.Descendants().
    TakeWhile(n => n != brNode).
    Where(n => n.NodeType == HtmlNodeType.Element);

TakeWhile方法 ( ) 中的n => n != brNode比较依赖于参考比较(即实现细节部分)。

最后一个过滤器是只为您提供元素节点,因为这是您通常通过调用SelectSingleNode;得到的。如果要处理其他节点类型,可以省略。

像这样循环通过这些节点:

foreach (HtmlNode node in nodes)
{
    // Print.
    Console.WriteLine("Node: {0}", node.Name);
}  

产生:

Node: strong
Node: font
Node: font
于 2012-09-10T17:39:52.203 回答