使用 Saxon 处理 xml 文件: http: //meltwaternews.com/magenta/xml/html/18/2/rss/v2_406837.rss2.XML 其中包括一些挪威字符,如 Æ、Ø、Å。xml编码为utf-8
但是,出现错误:非法 html 字符:十进制 152。 (http://meltwater.vacau.com/s2.png)
但是在原始 xml 文件中找不到十进制 152,即 ~。
如果我使用 windows-1252 用 Saxon 处理这个 xml 文件,我实际上可以看到 Æ、Ø、Å 被错误解析为 Ã~ Ã¥(你可以在这里看到小数点 152)(http://meltwater.vacau .com/s1.png)。
有人可以建议如何使它正确吗?