0

我正在尝试提取 html 文件的文本,但标签内部出现以下文本:

<h3>Café<h3>

并使用以下代码提取文本时:

htmlDocument.DocumentNode.SelectSingleNode("some XPath").InnerText;

我得到这个字符串 "Cafédirect" 。怎么能解决这个问题?

4

2 回答 2

0

我已经在这里回答过了,基本上你可以让 HtmlAgilityPack 检测 HTML 文档的编码。

HTMLAgilityPack Asp.net C# 错误处理

于 2013-08-19T14:03:15.257 回答
0

我现在知道答案了,工作我发现了做的方式,这里去:

htmlDocument.OptionDefaultStreamEncoding = Encoding.UTF8;

默认情况下,编码是 System.Text.Encoding.Default,UTF-8 允许重音

于 2013-08-21T03:49:15.090 回答