我正在 C#.net 中制作一个项目,我必须在其中获取网页的源代码并识别一些特定的标签。
例如,我必须找到所有
<img>
代码中的标记。我必须将它存储在一个变量中。
通过我的 c#.net 应用程序获取网页的源代码,我成功迈出了第一步。我不知道如何获取标签并将其位置存储在变量中?
给我一个建议
要解析 HTML,请使用HtmlAgilityPack等专用库,但要避免使用正则表达式。
这是从 HTML 片段中提取链接的示例,您可以对其进行调整以获取 img 标签。
我建议使用 HtmlAgitityPack 来完成这项工作,它非常灵活地使用原始 html 标记来获取标记的内容,例如:
HtmlDocument htmlDocument = new HtmlDocument();
htmlDocument.LoadHtml("<html><head></head><body><div><img /><div><img /><img/></div></div><img/></body></html>");
var nodes = htmlDocument.DocumentNode.SelectNodes("//img");
// 4 nodes found
foreach (var node in nodes)
{
// do stuff
}