0

我正在 C#.net 中制作一个项目,我必须在其中获取网页的源代码并识别一些特定的标签。

例如,我必须找到所有

           <img> 

代码中的标记。我必须将它存储在一个变量中。

通过我的 c#.net 应用程序获取网页的源代码,我成功迈出了第一步。我不知道如何获取标签并将其位置存储在变量中?

给我一个建议

4

2 回答 2

3

要解析 HTML,请使用HtmlAgilityPack等专用库,但要避免使用正则表达式

这是从 HTML 片段中提取链接的示例,您可以对其进行调整以获取 img 标签。

于 2012-11-20T09:10:13.127 回答
0

我建议使用 HtmlAgitityPack 来完成这项工作,它非常灵活地使用原始 html 标记来获取标记的内容,例如:

 HtmlDocument htmlDocument = new HtmlDocument();
 htmlDocument.LoadHtml("<html><head></head><body><div><img /><div><img /><img/></div></div><img/></body></html>");

 var nodes = htmlDocument.DocumentNode.SelectNodes("//img");
 // 4 nodes found
 foreach (var node in nodes)
 {
     // do stuff
 }
于 2012-11-20T09:12:10.637 回答