0

我正在使用Argotic Syndication Framework将 rss-feed 解析为提要项目。但是我需要删除所有 html 的描述。

下面显示了一个 RSS 提要描述的示例。

Jeg blev i maj inviteret til at holde et oplæg som keynote speaker på en konference i Alaska i HETL-regi (The International Higher Education Teaching and Learning Association). Patrick Blessinger, stifteren af HETL, har netop medvirket i et amerikansk online radio &#8230; <a href="http://aesbrock.wordpress.com/2013/07/12/niels-brock-naevnt-i-amerikansk-radio-interview/">Læs resten <span class="meta-nav">&#8594;</span></a><img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=aesbrock.wordpress.com&#038;blog=978571&#038;post=4538&#038;subd=aesbrock&#038;ref=&#038;feed=1" width="1" height="1" />

我希望它只显示为没有 html 的文本。

我尝试使用以下正则表达式

Regex.Replace(item.Description, @"<(.|\n)*?>", string.Empty);

但这并不完全正确;

我看到了有关使用的建议,HTMLAgilityPack但我想避免使用外部库。

任何建议都受到高度赞赏。

4

1 回答 1

0

感谢Pete的建议,但它仍然留下了一些html。我最终这样做了。

HttpUtility.HtmlDecode(Regex.Replace(item.Description, @"<!--[\S\s]*?-->|<(?:"".*?""|'.*?'|[\S\s])*?>", ""));

它来自一个帖子(在 webz 上的某个地方),但我没有为它添加书签,所以如果有人认出它 - 谢谢 :) 我希望它可以帮助其他人。

于 2013-07-17T07:19:57.740 回答