1

我是 XML 初学者。我正在使用 lxml python 库来处理 SAML 文档,但是我的问题与 SAML 或 SSO 并不真正相关。

很简单,我需要删除此 XML 文档中存在的属于“ds”命名空间的所有元素。我查看了 Xpath Search,查看了 findall(),但是我不知道如何使用命名空间。

原始文档如下所示:

<Response IssueInstant="dateandtime" ID="redacted" Version="2.0" xmlns="urn:oasis:names:tc:SAML:2.0:protocol" xmlns:saml="urn:oasis:names:tc:SAML:2.0:assertion" xmlns:ds="http://www.w3.org/2000/09/xmldsig#" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
  <saml:Issuer>redacted.com</saml:Issuer>
  <Status>
    <StatusCode Value="urn:oasis:names:tc:SAML:2.0:status:Success"/>
  </Status>
  <saml:Assertion Version="2.0" IssueInstant="redacted" ID="redacted">
    <saml:Issuer>redacted</saml:Issuer>
    <ds:Signature>
      <ds:SignedInfo>
        <ds:CanonicalizationMethod Algorithm="http://www.w3.org/2001/10/xml-exc-c14n#"/>
        <ds:SignatureMethod Algorithm="http://www.w3.org/2000/09/xmldsig#rsa-sha1"/>
        <ds:Reference URI="#redacted">
          <ds:Transforms>
            <ds:Transform Algorithm="http://www.w3.org/2000/09/xmldsig#enveloped-signature"/>
            <ds:Transform Algorithm="http://www.w3.org/2001/10/xml-exc-c14n#"/>
          </ds:Transforms>
          <ds:DigestMethod Algorithm="http://www.w3.org/2000/09/xmldsig#sha1"/>
          <ds:DigestValue>redacted</ds:DigestValue>
        </ds:Reference>
      </ds:SignedInfo>
      <ds:SignatureValue>redacted==</ds:SignatureValue>
      <ds:KeyInfo>
        <ds:X509Data>
          <ds:X509Certificate>certificateredacted=</ds:X509Certificate>
        </ds:X509Data>
        <ds:KeyValue>
          <ds:RSAKeyValue>
            <ds:Modulus>modulusredacted==</ds:Modulus>
            <ds:Exponent>AQAB</ds:Exponent>
          </ds:RSAKeyValue>
        </ds:KeyValue>
      </ds:KeyInfo>
    </ds:Signature>
    <saml:Subject>
      <saml:NameID Format="urn:oasis:names:tc:SAML:1.1:nameid-format:unspecified">subject_redacted</saml:NameID>
      <saml:SubjectConfirmation Method="urn:oasis:names:tc:SAML:2.0:cm:bearer">
        <saml:SubjectConfirmationData NotOnOrAfter="date_time_redacted" Recipient="https://website.com/redacted"/>
      </saml:SubjectConfirmation>
    </saml:Subject>
    <saml:Conditions NotOnOrAfter="date_time_redacted" NotBefore="date_time_redacted">
      <saml:AudienceRestriction>
        <saml:Audience>audience_redacted</saml:Audience>
      </saml:AudienceRestriction>
    </saml:Conditions>
    <saml:AuthnStatement AuthnInstant="date_time_redacted" SessionIndex="date_time_redacted">
      <saml:AuthnContext>
        <saml:AuthnContextClassRef>urn:oasis:names:tc:SAML:2.0:ac:classes:unspecified</saml:AuthnContextClassRef>
      </saml:AuthnContext>
    </saml:AuthnStatement>
    <saml:AttributeStatement xmlns:xs="http://www.w3.org/2001/XMLSchema">
      <saml:Attribute NameFormat="urn:oasis:names:tc:SAML:2.0:attrname-format:unspecified" Name="attribute_name_redacted">
        <saml:AttributeValue xsi:type="xs:string">attribute=redacted</saml:AttributeValue>
      </saml:Attribute>
      <saml:Attribute NameFormat="urn:oasis:names:tc:SAML:2.0:attrname-format:unspecified" Name="attribute_name_redacted">
        <saml:AttributeValue xsi:type="xs:string">value_redacted</saml:AttributeValue>
      </saml:Attribute>
    </saml:AttributeStatement>
  </saml:Assertion>
</Response>

我想要的是一个看起来像这样的文件:

<Response IssueInstant="dateandtime" ID="redacted" Version="2.0" xmlns="urn:oasis:names:tc:SAML:2.0:protocol" xmlns:saml="urn:oasis:names:tc:SAML:2.0:assertion" xmlns:ds="http://www.w3.org/2000/09/xmldsig#" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
  <saml:Issuer>redacted.com</saml:Issuer>
  <Status>
    <StatusCode Value="urn:oasis:names:tc:SAML:2.0:status:Success"/>
  </Status>
  <saml:Assertion Version="2.0" IssueInstant="redacted" ID="redacted">
    <saml:Issuer>redacted</saml:Issuer>
    <saml:Subject>
      <saml:NameID Format="urn:oasis:names:tc:SAML:1.1:nameid-format:unspecified">subject_redacted</saml:NameID>
      <saml:SubjectConfirmation Method="urn:oasis:names:tc:SAML:2.0:cm:bearer">
        <saml:SubjectConfirmationData NotOnOrAfter="date_time_redacted" Recipient="https://website.com/redacted"/>
      </saml:SubjectConfirmation>
    </saml:Subject>
    <saml:Conditions NotOnOrAfter="date_time_redacted" NotBefore="date_time_redacted">
      <saml:AudienceRestriction>
        <saml:Audience>audience_redacted</saml:Audience>
      </saml:AudienceRestriction>
    </saml:Conditions>
    <saml:AuthnStatement AuthnInstant="date_time_redacted" SessionIndex="date_time_redacted">
      <saml:AuthnContext>
   <saml:AuthnContextClassRef>urn:oasis:names:tc:SAML:2.0:ac:classes:unspecified</saml:AuthnContextClassRef>
      </saml:AuthnContext>
    </saml:AuthnStatement>
    <saml:AttributeStatement xmlns:xs="http://www.w3.org/2001/XMLSchema">
      <saml:Attribute NameFormat="urn:oasis:names:tc:SAML:2.0:attrname-format:unspecified" Name="attribute_name_redacted">
        <saml:AttributeValue xsi:type="xs:string">attribute=redacted</saml:AttributeValue>
      </saml:Attribute>
      <saml:Attribute NameFormat="urn:oasis:names:tc:SAML:2.0:attrname-format:unspecified" Name="attribute_name_redacted">
        <saml:AttributeValue xsi:type="xs:string">value_redacted</saml:AttributeValue>
      </saml:Attribute>
    </saml:AttributeStatement>
  </saml:Assertion>
</Response>
4

2 回答 2

2

您可以使用带有 的 XPath 在命名空间中查找元素//namespace:*,如下所示:

doc_root.xpath('//ds:*', namespaces={'ds': 'http://www.w3.org/2000/09/xmldsig#'})

因此,要删除此命名空间中的所有子项,您可以使用如下内容:

def strip_dsig(doc_root):
    nsmap={'ds': 'http://www.w3.org/2000/09/xmldsig#'}
    for element in doc_root.xpath('//ds:*', namespaces=nsmap):
        element.getparent().remove(element)
    return doc_root
于 2012-06-28T18:13:35.770 回答
0

使用 xsl 样式表很容易做到这一点。这可能是您最好的方法。

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:ds="http://www.w3.org/2000/09/xmldsig#" 
exclude-result-prefixes="ds">
<!-- no_ds.xsl -->

<xsl:template match="node()|@*">
  <xsl:copy><xsl:apply-templates select="node()|@*"/></xsl:copy>
</xsl:template>

<xsl:template match="ds:*"><xsl:apply-templates select="*"/></xsl:template>
<xsl:template match="@ds:*"/>    
</xsl:stylesheet> 

您可以使用xsltproc(对于 libxml2)或等效程序从命令行运行它:

xsltproc -o directoryname/ no_ds.xsl file1.xml file2.xml

这将创建没有 ds 命名空间的 directoryname/file1.xml 和 directoryname/file2.xml。

您也可以使用lxml 的 libxslt2 bindings对 lxml 执行此操作。

no_ds_stylesheet = etree.parse('no_ds.xsl')
no_ds_transform  = etree.XSLT()

# doc_to_transform is an Element or ElementTree
# from etree.fromstring(), etree.XML(), or etree.parse()
no_ds_doc = no_ds_transform(doc_to_transform)

#no_ds_doc is now another ElementTree doc, the result of the XSLT transform.
#You can reuse the no_ds_transform object multiple times (and should if you can)

no_ds_doc2 = no_ds_transform(doc_to_transform2)

由于 XSLT 文档是 XML 文档,因此您甚至可以使用 lxml 动态创建自定义 XSLT 样式表,并动态定义要省略的名称空间。(留给读者作为练习。)

于 2012-06-28T18:04:06.893 回答