0

我正在创建包含中文帖子的 xml 文件,它似乎可以正常工作,但我开始收到错误消息:

此页面包含以下错误:

第 25 列第 4165 行的错误:输入不正确的 UTF-8,指示编码!字节:0x0B 0xC3 0xA5 0xC2 下面是页面的渲染,直到第一个错误。

当试图打开一些结果文件时。它引用的行包含中文字符,这仅在某些情况下发生,我的猜测是文本有时包含一些将其丢弃的字符。如何确保该字段的文本始终正确编码?我什至不明白为什么这个问题。

 Public Shared xwriter As XmlTextWriter = New XmlTextWriter(xmlfile, Encoding.UTF8)

我确保正确声明了 xmltextwriter。

编辑:

问题是我使用 vb.net 并且显然它将所有内容编码为 utf-16,所以我认为这很好。问题是我收到的文本可能是双重编码或编码错误,我需要在使用前对其进行清理;这样我的 xml 是有效的。

编辑:

所以如果我需要修复我的数据,我的问题是如何检测用于特定文本的编码以及如何转换为可以在 xml 文件中查看的 utf8 格式并使文件有效。

4

1 回答 1

0

发现源是 AnSI 格式,所以我只需要删除我正在做的所有转换,现在看起来很好。

于 2012-04-23T15:59:36.993 回答