我有一个 xml 文件,它看起来像这样:
<Header>
<Type>TestType</Type>
<Owner>Me</Owner>
</Header>
ĺß™¸Ű;?źÉćáţ¬=ńgăűßEŶáCórýjąŞŢđ·I_§Ä†ÉD¤ďsĂŢŘö¤xi¦Ö†5ÚPMáx^š‡âő
那些有趣的字母是二进制编码的数据。
我在解析它时遇到了麻烦。我要做的就是在 Header 之后读取 Type 和 Owner 节点的值和数据。这些数据可能很大。它基本上是 xml,后面附加了数据。标头始终以 开头和结尾。其中子节点的数量可以改变
我尝试了简单的解析:
DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
Document doc = dBuilder.parse(f);
我得到的是:
com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 3-byte UTF-8 sequence.