xml-parsing - 使用 UTF-8 编码解析 XML 文件时出现无效令牌错误

Question

使用 UTF-8 编码解析 XML 文件时出现无效令牌错误。

遇到扩展 ASCII 字符 'â' { "â", "â" } 时会出现此错误。

当我将编码从 UTF-8 更改为 ISO-8859-1 时，解析成功。但我的应用程序应该支持 UTF-8、ASCII 和扩展的 ASCII 字符。我该怎么办？

欢迎任何想法。

提前感谢您的时间和解决方案。

score 1 · Accepted Answer

通过设置 XML 声明的 encoding 属性告诉解析器 latin-1 文件是 UTF-8 将导致类似于您报告的错误。

如果 'â' 字符 (U+00E2) 出现在UTF-8编码文件中，则该字符将在该文件中编码为两个字节序列。因此，如果您说更改编码时没有更改文件中的字节，那么您并没有更改文件的编码，只是告诉解析器非 UTF-8 文件是 UTF-8。

1 回答 1