我正在使用 HtmlAgilityPack 来解析 html 文件中的 href 标记。href 标签如下所示:
<h3 class="product-name"><a href="http://www.somewebsite.com/blahblah" title="Click Here to View This Product">Super Cool Product</a></h3>
到目前为止,我可以成功地将url和title一起拉出来,并显示在一个列表中。这是我用来解析 html 的主要代码:
var linksOnPage = from lnks in document.DocumentNode.SelectNodes("//h3[@class='product-name']//a")
where
lnks.Attributes["href"] != null &&
lnks.InnerText.Trim().Length > 0
select new
{
Url = lnks.Attributes["href"].Value,
Text = lnks.InnerText
};
上面的代码给了我一个看起来像这样的结果:
Super Cool Product - http://www.somewebsite.com/blahblah
我试图弄清楚如何分别提取名称和网址,并将它们放入单独的字符串中,而不是将它们拉在一起并将它们放入一个字符串中。我猜我可以使用某种 Xpath 表示法来做到这一点。如果有人能引导我走向正确的方向,我将非常感激
谢谢, 迈尔斯