我正在尝试提取文本以及href中的链接。
<html>
<body>
<p>foo <a href='http://www.example.com'>bar</a>
<br> baz</p>
</body>
</html>
我正在寻找输出,因为foo http://www.example.com bar baz
应该考虑 br 标记以获得正确的格式化句子。
我正在尝试提取文本以及href中的链接。
<html>
<body>
<p>foo <a href='http://www.example.com'>bar</a>
<br> baz</p>
</body>
</html>
我正在寻找输出,因为foo http://www.example.com bar baz
应该考虑 br 标记以获得正确的格式化句子。
干得好:
using System;
using HtmlAgilityPack;
public class Program
{
public static void Main()
{
var html =
@"<html><body><p>foo <a href='http://www.example.com'>bar</a><br> baz</p></body></html> ";
var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(html);
var htmlAnchor = htmlDoc.DocumentNode.SelectSingleNode("//a");
var htmlBr = htmlDoc.DocumentNode.SelectSingleNode("//p");
string hrefValue = htmlAnchor.Attributes["href"].Value;
Console.WriteLine(htmlBr.InnerText + " " + hrefValue);
}
}
输出:
富吧 baz http://www.example.com