我需要在 XML 中找到重复元素的位置。例如,在 XML 中,如下所示:

  <juice sugar="yes" fresh="no">
  <juice sugar="no" fresh="no">
  <juice sugar="no" fresh="no">
    <carrot kind="village" />
    <carrot kind="village" />
    <carrot kind="village" />

如果我的 XML 包含与共同父元素相同的元素,我需要抛出一个异常。然而,属性也很重要,应该是平等的。


  <juice sugar="no" fresh="no">
  <juice sugar="no" fresh="no">



    <carrot kind="village" />
    <carrot kind="village" />


对于这个问题的任何提示,我将不胜感激。我应该使用 XSLT 吗?或者在 C# 中反序列化我的 XML 可能更好?


我会首先通过将子元素按顺序排序,将每个元素转换为规范形式;使用 XSLT 很容易做到这一点。结果应该是,根据您的规则,当且仅当它们的规范形式根据 XPath 2.0 是 deep-equal() 时,两个元素才相等。

然后我会编写一个函数,为每个元素计算某种哈希码(以便“相等”元素具有相等的哈希码)并对该哈希码执行分组。同样,这在 XSLT 2.0 中很容易做到:唯一困难的一点是设计散列函数。我怀疑您的示例没有显示真实数据,我想在建议散列函数之前查看真实数据。

然后在每个哈希码组内,您可以使用 XSLT 2.0 的 deep-equal() 函数将组中的每个成员相互比较,以消除哈希码匹配错误的情况。

下面的 XSLT 2.0 解决方案恰好适用于您的数据集。如果你有更多的数据可以通过它,那将有助于测试它的稳健性。

t:\ftemp>type viktoria.xml 
<?xml version="1.0" encoding="UTF-8"?>
  <juice sugar="yes" fresh="no">
  <juice sugar="no" fresh="no">
  <juice sugar="no" fresh="no">
    <carrot kind="village" />
    <carrot kind="village" />
    <carrot kind="village" />

t:\ftemp>call xslt2 viktoria.xml viktoria.xsl 
<?xml version="1.0" encoding="UTF-8"?>
      <juice sugar="no" fresh="no">
      <juice sugar="no" fresh="no">
         <carrot kind="village"/>
         <carrot kind="village"/>

t:\ftemp>type viktoria.xsl 
<?xml version="1.0" encoding="US-ASCII"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
                xmlns:v="urn:X-Viktoria" exclude-result-prefixes="v xsd"

<xsl:output indent="yes"/>

<!--return true if the two elements and their attributes are the same while
    ignoring children-->
<xsl:function name="v:shallow-equal" as="xsd:boolean">
  <xsl:param name="elem1" as="element()"/>
  <xsl:param name="elem2" as="element()"/>
  <xsl:sequence select="node-name($elem1)=node-name($elem2) and
    ( every $a1 in $elem1/@* satisfies ( some $a2 in $elem2/@* satisfies 
        ( node-name($a1)=node-name($a2)  and $a1 = $a2 ) ) ) and
    ( every $a2 in $elem2/@* satisfies ( some $a1 in $elem1/@* satisfies 
        ( node-name($a1)=node-name($a2)  and $a1 = $a2 ) ) )"/>

<!--return true if two elements have the same children with the same attributes
    while ignoring the children's children-->
<xsl:function name="v:element-and-children-equal" as="xsd:boolean">
  <xsl:param name="elem1" as="element()"/>
  <xsl:param name="elem2" as="element()"/>
    select="v:shallow-equal($elem1,$elem2) and
            ( every $child1 in $elem1/* satisfies 
                count( $elem2/*[deep-equal(.,$child1)] )=1 ) and
            ( every $child2 in $elem2/* satisfies 
                count( $elem1/*[deep-equal(.,$child2)] )=1 )"/>

<!--produce result-->
<xsl:template match="menu">
      <!--find each element that has a sibling with same children, that is,
          there is more than one such element amongst all siblings-->
        select="*[ for $this in . return
              count ( ../*[v:element-and-children-equal(.,$this)] ) > 1 ]">
       <xsl:copy-of select="."/>
      <!--find each element that has duplicate children, that is,
          there is more than one of each child amongst all children-->
        select="*[ some $child in * satisfies
                   count ( *[deep-equal(.,$child)] ) >1 ]">
       <xsl:copy-of select="."/>

t:\ftemp>rem Done! 
感谢大家的回应。我用 C# 和 XmlDocument 类解决了我的问题。幸运的是我发现,只检查具有某些属性的节点就足够了,不需要反序列化。我只是递归地检查了每个节点的后代。

