html-agility-pack - HtmlAgilityPack Div 类包含字符串

Question

我正在尝试仅从网页中抓取文章文本。我发现文章总是被 div 标签包围。不幸的是，每个网页的这些 div 标签的类别略有不同。我研究过使用 XPath，但由于类名不同，我认为它不会起作用。有没有办法可以获取所有 div 标签然后获取类？

例子

<div class="entry_single">
  <p>I recently traveled without my notebook for the first time in ages.</p>
</div>

<div class="entry-content-pagination">
  <p>Ward 9 Ald. Steven Dove</p>
</div>

score 0 · Accepted Answer

使用 Linq 会更容易。

foreach(HtmlNode div in doc.DocumentNode.Descendants("div"))
{
    string className = div.GetAttributeValue("class", string.Empty);
    // do something with class name
}

html-agility-pack - HtmlAgilityPack Div 类包含字符串

1 回答 1

Related

Reference