1

我正在尝试从不同页面的页面源中获取页面标题。但是可以说有些页面的标题是这样的:

"This is an example," ABC.

它有一些像“””这样的html。如果我在c#中使用字符串来获取这个标题,我会得到整个东西,并且在显示它时会像上面那样显示它,这是错误的。有什么方法可以忽略或考虑html c#中的值?

我也在使用 htmlagilitypack,所以其中的任何内容都可以。

4

2 回答 2

3

您可以WebUtility.HtmlDecode用来解码 html,链接在MSDN上:

WebUtility.HtmlDecode(""This is an example," ABC.");

只需使用:

using System.Net;

结果将是:“\”这是一个示例,\“ABC。”

您也可以HtmlEntity.DeEntitize使用HTML Agility Pack

HtmlEntity.DeEntitize(string text)
于 2012-09-29T16:50:09.280 回答
0

您不知道可以在页面标题中找到什么。有时那里是一团糟。我的建议是按原样获取字符串并在显示/保存之前对其进行处理。

在这种情况下,解决方案很简单:更换

"

带有相应的字符。

每次阅读 HTML 文档以提取一些标签时,请注意标签永远不会关闭。如果用户忘记关闭标题标签...您将进入该行整个页面!

于 2012-09-29T16:43:00.613 回答