看起来它正在对输出进行非规范化,并包括命名空间上下文以及实际需要命名空间上下文的节点。
例如,这个问题的网页嵌入了 creativeCommons 命名空间:
<feed xmlns="http://www.w3.org/2005/Atom" xmlns:creativeCommons="http://backend.userland.com/creativeCommonsRssModule" xmlns:thr="http://purl.org/syndication/thread/1.0">
<!-- snip -->
<creativeCommons:license>http://www.creativecommons.org/licenses/by-nc/2.5/rdf</creativeCommons:license>
<!-- snip -->
</feed>
当您使用此脚本输出 xml 时:
def root = new XmlParser().parseText("http://stackoverflow.com/feeds/question/227447".toURL().text)
println new XmlNodePrinter().print(root)
它最终将命名空间移动到需要该命名空间的许可证节点。在这种情况下没什么大不了的,因为该命名空间中只有一个节点。如果大多数 XML 都是命名空间的,那么它可能会使事情变得更加臃肿。
<feed xmlns="http://www.w3.org/2005/Atom">
<!-- snip -->
<creativeCommons:license xmlns:creativeCommons="http://backend.userland.com/creativeCommonsRssModule">
http://www.creativecommons.org/licenses/by-nc/2.5/rdf
</creativeCommons:license>
<!-- snip -->
</feed>
如果您确实希望节点标准化,则必须对 XmlNodePrinter 进行一些调整以执行 2 次通过 XML,首先收集所有使用的命名空间,然后在顶部而不是在每个命名空间节点内输出它们。groovy 源代码实际上非常易读,如果您确实需要它,修改起来并不难。