c# - Html Utility Pack 无法正确读取非 ASCII 文本

Question

当我解析 html 文档而不是获取日文文本时，我得到如下信息：

͂��̓C�t�T�[��ł��A21�΂ł��A��b�R�ɂ�� A��͓��{�̕��A�N��ɓ��{��邱�Ƃ� ��A��3�N�ԓ��{��׋�� A��r�A��邱�Ƃɂ��邱�Ƃł��傤 ^ ^��͓��{� l�̗F�B�ɉ��A��ɂ��闝�R�ł��A�ł́A��B�C�t�[� � (^ ^)\r\n\t\t\t

HtmlDocument 中的编码设置为 iso-2022-jp，这似乎是正确的。我也试过

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.UTF8;

有任何想法吗？

score 0 · Accepted Answer

这修复了它：

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.GetEncoding(932);
doc = web.Load(url);

在加载 HtmlDocument 后，我查看了它的 Encoding 属性以找到代码页 932。即使检测到它，在初始读取期间也没有使用它。UTF8 不是正确的编码。

c# - Html Utility Pack 无法正确读取非 ASCII 文本

1 回答 1

Related

Reference