html-agility-pack - 如何使用 HTMLAgilityPack 处理重音问题

Question

我正在尝试提取 html 文件的文本，但标签内部出现以下文本：

<h3>Café<h3>

并使用以下代码提取文本时：

htmlDocument.DocumentNode.SelectSingleNode("some XPath").InnerText;

我得到这个字符串 "Cafédirect" 。怎么能解决这个问题？

score 0 · Accepted Answer

我已经在这里回答过了，基本上你可以让 HtmlAgilityPack 检测 HTML 文档的编码。

score 0 · Accepted Answer

我现在知道答案了，工作我发现了做的方式，这里去：

htmlDocument.OptionDefaultStreamEncoding = Encoding.UTF8;

默认情况下，编码是 System.Text.Encoding.Default，UTF-8 允许重音

2 回答 2