0

当我解析 html 文档而不是获取日文文本时,我得到如下信息:

͂������̓C�t�T�[���ł��A21�΂ł��A�����b�R�ɂ�������� �A����͓��{�̕����������������A�N�������ɓ��{�������邱�Ƃ� ����������A����3�N�ԓ��{���׋���� ����A���r�A��������邱�Ƃɂ����������������邱�Ƃł��傤 ^ ^���͓��{� l�̗F�B�ɉ�����A����������ɂ��闝�R�ł��A�ł́A���B�C�t�[� � (^ ^)\r\n\t\t\t

HtmlDocument 中的编码设置为 iso-2022-jp,这似乎是正确的。我也试过

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.UTF8;

有任何想法吗?

4

1 回答 1

0

这修复了它:

HtmlWeb web = new HtmlWeb();
web.OverrideEncoding = Encoding.GetEncoding(932);
doc = web.Load(url);

在加载 HtmlDocument 后,我​​查看了它的 Encoding 属性以找到代码页 932。即使检测到它,在初始读取期间也没有使用它。UTF8 不是正确的编码。

于 2013-08-18T00:07:20.813 回答