c# - 如何在 C# 中将 HTML 行读取为字符串

Question

我正在尝试从不同页面的页面源中获取页面标题。但是可以说有些页面的标题是这样的：

&quot;This is an example,&quot; ABC.

它有一些像“””这样的html。如果我在c#中使用字符串来获取这个标题，我会得到整个东西，并且在显示它时会像上面那样显示它，这是错误的。有什么方法可以忽略或考虑html c#中的值？

我也在使用 htmlagilitypack，所以其中的任何内容都可以。

score 3 · Accepted Answer

您可以WebUtility.HtmlDecode用来解码 html，链接在MSDN上：

WebUtility.HtmlDecode("&quot;This is an example,&quot; ABC.");

只需使用：

using System.Net;

结果将是：“\”这是一个示例，\“ABC。”

您也可以HtmlEntity.DeEntitize使用HTML Agility Pack：

HtmlEntity.DeEntitize(string text)

score 0 · Accepted Answer

您不知道可以在页面标题中找到什么。有时那里是一团糟。我的建议是按原样获取字符串并在显示/保存之前对其进行处理。

在这种情况下，解决方案很简单：更换

&quot;

带有相应的字符。

每次阅读 HTML 文档以提取一些标签时，请注意标签永远不会关闭。如果用户忘记关闭标题标签...您将进入该行整个页面！

2 回答 2