html - Htmlnode收集和解析

Question

我正在尝试提取网页中包含的文本。所以我正在使用第三方工具 Html Agility Pack。他们提到：

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

我可以抓取页面中包含的所有其他链接。但我想获取该页面中包含的所有文本数据。是否可以？

score 1 · Accepted Answer

是的，有可能。下载 HtmlAgilityPack 的源代码并查看 Html2Txt 示例项目，尤其是 HtmlConvert.cs。您几乎可以将他们的方法复制/粘贴到您正在做的任何事情中。

或者，就此而言，按原样编译示例项目并设置对二进制文件的引用。HtmlAgilityPack.Samples.HtmlToText.Convert() 将完全满足您的需求。

score 0 · Accepted Answer

您在那里使用 xpath 选择器。如果您选择所有节点（“*”）然后执行 foreach 会起作用吗？

PS：这是什么编程语言？

html - Htmlnode收集和解析

2 回答 2

Related

Reference