-1

我正在尝试提取文本以及href中的链接。

<html>
    <body>
        <p>foo <a href='http://www.example.com'>bar</a>
            <br> baz</p>
    </body>
</html>

我正在寻找输出,因为foo http://www.example.com bar baz 应该考虑 br 标记以获得正确的格式化句子。

4

1 回答 1

0

干得好:

using System;
using HtmlAgilityPack;
                    
public class Program
{
    public static void Main()
    {
        var html =
        @"<html><body><p>foo <a href='http://www.example.com'>bar</a><br> baz</p></body></html> ";
        var htmlDoc = new HtmlDocument();
        htmlDoc.LoadHtml(html);
        var htmlAnchor = htmlDoc.DocumentNode.SelectSingleNode("//a");
        var htmlBr = htmlDoc.DocumentNode.SelectSingleNode("//p");
        string hrefValue = htmlAnchor.Attributes["href"].Value;
        Console.WriteLine(htmlBr.InnerText + " " + hrefValue);
    }
}

输出:

富吧 baz http://www.example.com

工作示例:https ://dotnetfiddle.net/BBYAF9

于 2022-02-01T14:23:02.300 回答