0

我正在尝试提取网页中包含的文本。所以我正在使用第三方工具 Html Agility Pack。他们提到:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

我可以抓取页面中包含的所有其他链接。但我想获取该页面中包含的所有文本数据。是否可以?

4

2 回答 2

1

是的,有可能。下载 HtmlAgilityPack 的源代码并查看 Html2Txt 示例项目,尤其是 HtmlConvert.cs。您几乎可以将他们的方法复制/粘贴到您正在做的任何事情中。

或者,就此而言,按原样编译示例项目并设置对二进制文件的引用。HtmlAgilityPack.Samples.HtmlToText.Convert() 将完全满足您的需求。

于 2009-10-08T06:46:20.883 回答
0

您在那里使用 xpath 选择器。如果您选择所有节点(“*”)然后执行 foreach 会起作用吗?

PS:这是什么编程语言?

于 2009-10-08T06:47:20.810 回答