java - 验证 XML 文档会导致“1 字节 UTF-8 序列的字节 1 无效”。

Question

我正在使用Probatron4j验证一些 XML 文件对 Schematron样式表，它在内部使用 Saxon。大多数情况下，这工作正常，但偶尔，处理崩溃并出现错误

org.xml.sax.SAXParseException：1 字节 UTF-8 序列的字节 1 无效。

我的研究表明，此消息通常表明（无特定顺序）

明显无效的数据（例如，试图像读取 XML 文件一样读取 ZIP 文件）；
字节顺序标记的存在；
存在 UTF-8 中不合法的字符；或者
声称是 UTF-8 编码的文档是在说谎。

这些都不适用于我正在处理的文档。我在程序执行期间检查了字节数组形式的输入，它不包含 BOM 或任何非 ASCII 字符。

处理在我的 30kb 文档中大约进行了五分之一，然后在一个不起眼的英文句子上崩溃（通过“不起眼”，我的意思是所有字节都在 32（空格）和 122（小写 z）之间；换句话说，标准键盘字符）。所谓的违规元素的字节在这篇文章的末尾。

奇怪的是，失败的文档是通过从一个较大的文档中删除一些元素生成的，这些元素由相同的代码干净地处理。

我知道异常是在实现接口parse(InputSource input)的对象的方法中引发的。org.xml.saxXMLReader根据Javadoc，SAXException表示

任何 SAX 异常，可能包含另一个异常。

在调试器中检查异常表明没有包装异常。

什么可能导致此错误？

编辑：

[60, 80, 97, 114, 97, 103, 114, 97, 112, 104, 62, 69, 120, 101, 99, 117, 116,
 105, 118, 101, 32, 83, 117, 109, 109, 97, 114, 121, 58, 32, 70, 114, 111, 109,
 32, 49, 55, 53, 52, 32, 116, 111, 32, 49, 55, 54, 51, 13, 10, 32, 32, 32, 32,
 32, 32, 32, 32, 32, 32, 32, 32, 69, 117, 114, 111, 112, 101, 32, 97, 110, 100,
 32, 116, 104, 101, 32, 65, 109, 101, 114, 105, 99, 97, 115, 32, 119, 101, 114,
 101, 32, 99, 97, 117, 103, 104, 116, 32, 117, 112, 32, 105, 110, 32, 97, 32, 99,
 111, 110, 102, 108, 105, 99, 116, 32, 98, 101, 116, 119, 101, 101, 110, 32, 69,
 110, 103, 108, 97, 110, 100, 44, 32, 117, 110, 100, 101, 114, 32, 75, 105, 110,
 103, 32, 71, 101, 111, 114, 103, 101, 32, 73, 73, 44, 32, 97, 110, 100, 32, 70,
 114, 97, 110, 99, 101, 44, 32, 117, 110, 100, 101, 114, 32, 75, 105, 110, 103,
 32, 76, 111, 117, 105, 115, 32, 88, 86, 46, 32, 73, 110, 32, 69, 117, 114, 111,
 112, 101, 13, 10, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 32, 116, 104, 105,
 115, 32, 112, 101, 114, 105, 111, 100, 32, 119, 97, 115, 32, 107, 110, 111, 119,
 110, 32, 97, 115, 32, 116, 104, 101, 32, 83, 101, 118, 101, 110, 32, 89, 101,
 97, 114, 115, 39, 32, 87, 97, 114, 59, 32, 105, 110, 32, 78, 111, 114, 116, 104,
 32, 65, 109, 101, 114, 105, 99, 97, 32, 105, 116, 32, 99, 97, 109, 101, 32, 116,
 111, 32, 98, 101, 32, 99, 97, 108, 108, 101, 100, 32, 116, 104, 101, 32, 70,
 114, 101, 110, 99, 104, 32, 97, 110, 100, 32, 73, 110, 100, 105, 97, 110, 32,
 87, 97, 114, 46, 32, 73, 116, 32, 119, 97, 115, 32, 97, 32, 99, 111, 110, 102,
 108, 105, 99, 116, 32, 111, 118, 101, 114, 13, 10, 32, 32, 32, 32, 32, 32, 32,
 32, 32, 32, 32, 32, 116, 114, 97, 100, 101, 32, 97, 110, 100, 32, 108, 97, 110,
 100, 46, 60, 47, 80, 97, 114, 97, 103, 114, 97, 112, 104, 62]

第三次出现后抛出异常109。

score 4 · Accepted Answer

我已经解决了这个问题。尽管 Java 在内部为其String对象使用 UTF-8，但String该类的getBytes()方法将生成系统默认编码的字节，除非您明确指定您需要 UTF-8（或它可以理解的其他编码方案）。

我不完全确定这是如何或为什么解决问题的，因为抛出异常的位置附近的字节（问题末尾的字节）本身都是有效的 UTF-8 字节，但看起来确实如此有固定的东西。

我能想到的唯一潜在原因是我错过了文件中较早的一个无效字节，这把事情搞砸了，但没有导致立即崩溃。我正在从 a 中读取字节ByteArrayInputStream，因此程序可能会同时从缓冲区中读取一大块，这会将pos标记设置到假设坏字符所在位置之外的位置。

score 0 · Accepted Answer

在等待您的字节数组时，我做了一些谷歌搜索。

你说

奇怪的是，失败的文档是通过从一个较大的文档中删除一些元素生成的，这些元素由相同的代码干净地处理。

从那，我怀疑这个线程中的问题可能是你的问题

java - 验证 XML 文档会导致“1 字节 UTF-8 序列的字节 1 无效”。

2 回答 2

Related

Reference