我正在创建包含中文帖子的 xml 文件,它似乎可以正常工作,但我开始收到错误消息:
此页面包含以下错误:
第 25 列第 4165 行的错误:输入不正确的 UTF-8,指示编码!字节:0x0B 0xC3 0xA5 0xC2 下面是页面的渲染,直到第一个错误。
当试图打开一些结果文件时。它引用的行包含中文字符,这仅在某些情况下发生,我的猜测是文本有时包含一些将其丢弃的字符。如何确保该字段的文本始终正确编码?我什至不明白为什么这个问题。
Public Shared xwriter As XmlTextWriter = New XmlTextWriter(xmlfile, Encoding.UTF8)
我确保正确声明了 xmltextwriter。
编辑:
问题是我使用 vb.net 并且显然它将所有内容编码为 utf-16,所以我认为这很好。问题是我收到的文本可能是双重编码或编码错误,我需要在使用前对其进行清理;这样我的 xml 是有效的。
编辑:
所以如果我需要修复我的数据,我的问题是如何检测用于特定文本的编码以及如何转换为可以在 xml 文件中查看的 utf8 格式并使文件有效。