python - 使用 Python ElementTree 迭代多个（父、子）节点

Question

Python (2.6) 的 ElementTree 的标准实现不提供从子节点指向父节点的指针。因此，如果需要父母，建议循环父母而不是孩子。

考虑我的 xml 的形式：

<Content>
  <Para>first</Para>
  <Table><Para>second</Para></Table>
  <Para>third</Para>
</Content>

以下查找所有“Para”节点而不考虑父节点：

(1) paras = [p for p in page.getiterator("Para")]

这（改编自 effbot）通过循环而不是子节点来存储父节点：

(2) paras = [(c,p) for p in page.getiterator() for c in p]

这是非常有意义的，并且可以通过条件扩展以实现与（1）相同的结果，但添加了父信息：

(3) paras = [(c,p) for p in page.getiterator() for c in p if c.tag == "Para"]

ElementTree 文档建议 getiterator() 方法进行深度优先搜索。在不寻找父级 (1) 的情况下运行它会产生：

first
second
third

但是，从 (3) 中的 paras 中提取文本会产生：

first, Content>Para
third, Content>Para
second, Table>Para

这似乎是广度优先。

因此，这提出了两个问题。

这是正确和预期的行为吗？
当孩子必须是某种类型但父母可以是任何东西时，如果必须保持文档顺序，你如何提取（父母，孩子）元组。我不认为运行两个循环并将（3）生成的（父，子）映射到（1）生成的订单是理想的。

score 5 · Accepted Answer

考虑一下：

>>> xml = """<Content>
...   <Para>first</Para>
...   <Table><Para>second</Para></Table>
...   <Para>third</Para>
... </Content>"""
>>> import xml.etree.cElementTree as et
>>> page = et.fromstring(xml)
>>> for p in page.getiterator():
...     print "ppp", p.tag, repr(p.text)
...     for c in p:
...         print "ccc", c.tag, repr(c.text), p.tag
...
ppp Content '\n  '
ccc Para 'first' Content
ccc Table None Content
ccc Para 'third' Content
ppp Para 'first'
ppp Table None
ccc Para 'second' Table
ppp Para 'second'
ppp Para 'third'
>>>

另外：列表推导非常棒，直到您想确切地看到正在迭代的内容:-)

getiterator 正在按广告顺序生产“ppp”元素。但是，您正在从辅助“ccc”元素中提取您感兴趣的元素，这些元素不是您想要的顺序。

一种解决方案是进行自己的迭代：

>>> def process(elem, parent):
...    print elem.tag, repr(elem.text), parent.tag if parent is not None else None
...    for child in elem:
...       process(child, elem)
...
>>> process(page, None)
Content '\n  ' None
Para 'first' Content
Table None Content
Para 'second' Table
Para 'third' Content
>>>

现在，您可以在“Para”元素流过时引用其父元素（如果有的话）。

这可以很好地包含在生成器小工具中：

>>> def iterate_with_parent(elem):
...     stack = []
...     while 1:
...         for child in reversed(elem):
...             stack.append((child, elem))
...         if not stack: return
...         elem, parent = stack.pop()
...         yield elem, parent
...
>>>
>>> showtag = lambda e: e.tag if e is not None else None
>>> showtext = lambda e: repr((e.text or '').rstrip())
>>> for e, p in iterate_with_parent(page):
...     print e.tag, showtext(e), showtag(p)
...
Para 'first' Content
Table '' Content
Para 'second' Table
Para 'third' Content
>>>

python - 使用 Python ElementTree 迭代多个（父、子）节点

1 回答 1

Related

Reference