4

我正在尝试打开一个 xml,删除整个标签及其内容,并在 xml 中移动其他标签。

这是我原来的导入 xml:

<?xml version="1.0" encoding="UTF-8"?>
<package>
    <language>en-GB</language>
    <video>
        <original_spoken_locale>en-US</original_spoken_locale>
        <copyright_cline>2012 copyright</copyright_cline>
        <release_date>2012-04-23</release_date>
        <title>Amazing Film</title>
    </video>
    <provider>testprovider</provider>
</package>

我需要删除<copyright_cline>标签和<title>标签。然后我需要将<provider>标签向上移动到<video>标签中并将其定位在标签下方,并将标签向下<original_spoken_locale>移动到<release_date>标签下方<video>

这是生成的导出 xml:

<?xml version="1.0" encoding="UTF-8"?>
<package>
    <language>en-GB</language>
    <video>
        <original_spoken_locale>en-US</original_spoken_locale>
        <provider>testprovider</provider>
        <release_date>2012-04-23</release_date>
    </video>
    <release_date>2012-04-23</release_date>
</package>

我现在已经成功安装了 lxml,所以寻找一个理想的解决方案。

亲切的问候。


我已经能够删除不需要的标签及其内容,但仍然需要能够重新排序/移动其他标签,最好不要替换。我也无法删除这行 xml 代码”

<!--Carpet ID: fd54678-->

这是我目前拥有的:

from lxml import etree

xmlFileIn = '/xmls/metadata.xml'
xmlFileOut = '/xmls/output.xml'

tree = etree.parse(xmlFileIn)
root = tree.getroot()

etree.strip_elements(root, 'assets')
etree.strip_tags(root, 'assets')

etree.strip_elements(root, 'chapters')
etree.strip_tags(root, 'chapters')

etree.strip_elements(root, 'xid')
etree.strip_tags(root, 'xid')

# Write the new xml file
tree.write(xmlFileOut, pretty_print=True, xml_declaration=True, encoding="utf-8")

所以我仍然需要删除<!--Carpet ID: fd54678-->标签。我想通过通配符删除这些,因为有很多<!--.*-->,因为中间的内容会改变。而且我还需要知道如何移动标签块。

4

1 回答 1

1

由于还没有其他人回答,我会尝试;但我来自阅读而不是实验。如果我错过了什么,请提前道歉……

有关如何移动元素,请参阅使用 lxml.etree 将整个元素移入

如上所述,要特别小心,因为文本节点不是lxml 中的节点(见下文)。

至于评论,我在 lxml 中找不到任何获取评论或直接“移动”元素的方法。你可以先用'sed'或其他东西剥离它们。

注意事项

Elementtree 和因此 lxml 似乎热衷于只有一种节点。这会产生一些可能有问题的后果(“事情应该尽可能简单,但不能更简单”):

  • 使用注释(如本例)或 PI 更难,因为它们不是模型中的一流概念。

  • 文本尤其困难,因为 lxml 和 elementtree 使任何 XML 元素结束标记之后的文本成为该元素的属性(“尾部文本”)。它被视为与该元素的类型名称、属性和子元素相同。这可能有点工作(它是一个图灵机,你知道),但它需要完全不同的思维方式。

我注意到有关 lxml 的作者经常说它主要用于实际上没有太多文本的 XML 结构。您给出的示例似乎是这样的;如果是这样,你很幸运。但是当文本很重要时,即使是这样简单的事情:

 <p>As everyone<footnote>Well, almost everyone</footnote> knows...</p>

文本“know...”是 lxml 中 <footnote> 节点的一部分。当您移动、删除或替换脚注时,文本会随之出现。但当然,该文本不是脚注的一部分(毕竟它发生在脚注结束之后)。

我不知道 lxml 对“每个人”做了什么——它不会在任何元素结束后立即出现。我找不到有关 lxml 如何处理它的任何信息。

因此,如果任何地方有任何文本内容,请务必小心。

于 2014-01-06T05:26:13.337 回答