我正在尝试从不同页面的页面源中获取页面标题。但是可以说有些页面的标题是这样的:
"This is an example," ABC.
它有一些像“””这样的html。如果我在c#中使用字符串来获取这个标题,我会得到整个东西,并且在显示它时会像上面那样显示它,这是错误的。有什么方法可以忽略或考虑html c#中的值?
我也在使用 htmlagilitypack,所以其中的任何内容都可以。
您可以WebUtility.HtmlDecode
用来解码 html,链接在MSDN上:
WebUtility.HtmlDecode(""This is an example," ABC.");
只需使用:
using System.Net;
结果将是:“\”这是一个示例,\“ABC。”
您也可以HtmlEntity.DeEntitize
使用HTML Agility Pack
:
HtmlEntity.DeEntitize(string text)
您不知道可以在页面标题中找到什么。有时那里是一团糟。我的建议是按原样获取字符串并在显示/保存之前对其进行处理。
在这种情况下,解决方案很简单:更换
"
带有相应的字符。
每次阅读 HTML 文档以提取一些标签时,请注意标签永远不会关闭。如果用户忘记关闭标题标签...您将进入该行整个页面!