阅读了很多关于不使用 RegExes 剥离 HTML的内容,我想知道如何在我的 RichTextBox 中获取一些链接,而不会获取我从某个报纸网站下载的内容中的所有杂乱 html。
我所拥有的:来自报纸网站的 HTML。
我想要什么:文章作为 RichTextBox 中的纯文本。但是使用链接(即用 替换<a href="foo">bar</a>
)<Hyperlink NavigateUri="foo">bar</Hyperlink>
。
HtmlAgilityPack 给了我HtmlNode.InnerText
(去掉了所有的 HTML 标签)和HtmlNode.InnerHtml
(所有的标签)。我可以使用 获取链接的 URL 和文本articlenode.SelectNodes(".//a")
,但是我应该如何知道将其插入到纯文本中的位置HtmlNode.InnerText
?
任何提示将不胜感激。