我一直在努力转换属性的 html 值,但没有成功。
这是我要转换的 HTML(确保字符集不会在此处显示,但是,我看到的和您看到的完全一样)。
<a href="https://sistemas.usp.br/jupiterweb/listarGradeCurricular?codcg=12&codcur=12012&codhab=1&tipo=N" target="_blank">Administração – São Paulo – diurno</a>
好吧,这个 htmlnode 的 VALUE 是“Administração - São Paulo - diurno”。
我正在使用 HtmlAgilityPack 来解析 HtmlPage ,一旦我到达这个节点,它的 innerText 值就像这样:Administração â São Paulo â diurno
我假设页面的原始字符集是 UTF-8,因为这就是 html 上的编码标签对我说的。
如何将这个奇怪的字符串转换为 : Administração - São Paulo - Diurno
?
编辑:我通过 C# WebRequest Get 获取页面。
EDIT2:添加了 HtmlAgilityPack 标签
问题是孤立的:WebRequest 有时会弄乱 Html。
有没有其他方法来设置编码?我正在尝试:_webReq.Encoding = "ISO-8859-1"
提前致谢