我最近将我的项目从 Xerces-J 2.7.0 升级到 Xerces-J 2.12.1,并且我看到模式验证行为发生了变化。我不完全清楚我的测试是错误的还是 Xerces 是错误的。
鉴于此架构:
<?xml version='1.0'?>
<xsd:schema xmlns:xsd='http://www.w3.org/2001/XMLSchema'>
<!-- Schema to test facets for the xsd:base64Binary datatype. -->
<xsd:element name="facetTest" type="FacetTestComplexType"/>
<xsd:complexType name="FacetTestComplexType">
<xsd:sequence>
<xsd:element name='enumeration' type='EnumerationType' minOccurs="0"/>
</xsd:sequence>
</xsd:complexType>
<!-- ***** Enumeration ***** -->
<xsd:simpleType name='EnumerationType'>
<xsd:restriction base='xsd:base64Binary'>
<xsd:enumeration value='Ab1+'/>
<xsd:enumeration value='7 d Ec'/>
</xsd:restriction>
</xsd:simpleType>
</xsd:schema>
而这个实例文件:
<facetTest>
<enumeration>7dEc</enumeration>
</facetTest>
对于 Xerces-J 2.7.0,该实例文档将是有效的,但是在使用 Xerces-J 2.12.1 时,它现在被标记为无效。
我查看了模式 base64binary 规范,但我不清楚这是否应该有效(我的代码是正确的,Xerces-J 是错误的)或反之亦然。这是让我震惊的一段话:
请注意,此文法要求词法形式中的非空白字符数为四的倍数,并且等号仅出现在词法形式的末尾;不满足这些约束的字符串不是 base64Binary 的合法词法形式,因为它们不能被 base64 解码器成功解码。
注意:上述词汇空间的定义比 [RFC 2045] 中关于空格的定义更严格——这在实践中不是问题。任何与 RFC 兼容的字符串都可以出现在通过这种类型验证的元素或属性中,因为这种类型的·whiteSpace· facet 固定为折叠,这意味着所有前导和尾随空格都将被剥离,并且所有内部空格都折叠为单个空格字符,在执行上述语法之前。
根据枚举的定义,它限制了value-space,而不是lexical-space。在这种情况下,值空间似乎覆盖了原始二进制内容。如果是这种情况,那么空格应该是没有意义的。
任何关于我的代码或 Xerces 是否不正确的澄清将不胜感激。