c# - HTML Agility Pack - 在特定节点之后选择节点

Question

我在 codeplex 讨论中提出了这个问题，但我希望在 stackoverflow 上得到更快的答案。

因此，我使用 HTML Agility Pack 在 C# 中进行 HTML 解析。我有以下html结构：

<body>
   <p class="paragraph">text</p>
   <p class="paragraph">text</p>
   <p class="specific">text</p>
   <p class="paragraph">text</p>
   <p class="paragraph">text</p>
</body>

而且我需要获取在具有类“特定”的 p 元素之后存在的所有具有类“段落”的 p 元素。

有没有办法做到这一点？

谢谢。

score 6 · Accepted Answer

在马克的例子中使用 .Class （如果不存在，替换任何合适的）

使用SkipWhile

例如，在LINQPad中，您可以5,6,7从：

int[] a = { 6, 5, 6 ,7 };
a.SkipWhile(x=>x!=6).Skip(1).Dump();

因此，根据 SelectNodes 返回的类型，可以：

.SelectNodes( "/p" ).SkipWhile( p => p.Class != "specific" ).Skip(1)

或者

.SelectNodes( "/p" ).Cast<XX>().SkipWhile( p => p.Class != "specific" ).Skip(1)

（或者，丑陋的版本）

.SelectNodes( "/p" ).SkipWhile( p => ((XX)p).Class != "specific" ).Skip(1)

（或者在某些情况下 - 如果您的表达式已经正确过滤，则不是）

.SelectNodes( "/p" ).OfType<XX>().SkipWhile( p => p.Class != "specific" ).Skip(1)

编辑：我可能会创建一个扩展方法：

static class HapExtensions
{
    public IEnumerable<T> SkipUntilAfter( this IEnumerable<T> sequence, Predicate<T> predicate) {
        return sequence.SkipWhile( predicate).Skip(1);
       }
}

有人愿意为此搜索现有技术吗？有什么好的名字推荐吗？

score 2 · Accepted Answer

试试这个

bool latterDayParagraphs = false;
List<DocumentNode> nodes = new List<DocumentNode>();
foreach(var pElement in doc.DocumentNode.SelectNodes("/p"))
{
   if(pElement.Class != "paragraph") 
   {
      latterDayParagraphs = true;
      continue;
   }
   if(latterDayParagraphs)
   {
      nodes.Add(pElement);
   }
}

c# - HTML Agility Pack - 在特定节点之后选择节点

2 回答 2

Related

Reference