0

给定看起来像这样的 xml:

<Store>
<foo>
<book>
<isbn>123456</isbn>
</book>
<title>XYZ</title>
<checkout>no</checkout>
</foo>
<bar>
<book>
<isbn>7890</isbn>
</book>
<title>XYZ2</title>
<checkout>yes</checkout>
</bar>
</Store>

我得到这个作为我解析的 xmldoc:

>>> from xml.dom import minidom
>>> xmldoc = minidom.parse('bar.xml')
>>> xmldoc.toxml()
u'<?xml version="1.0" ?><Store>\n<foo>\n<book>\n<isbn>123456</isbn>\n</book>\n<t
itle>XYZ</title>\n<checkout>no</checkout>\n</foo>\n<bar>\n<book>\n<isbn>7890</is
bn>\n</book>\n<title>XYZ2</title>\n<checkout>yes</checkout>\n</bar>\n</Store>'

是否有一种简单的方法来预处理此文档,以便在解析时不会将其解析为单个 xml 元素?

4

2 回答 2

2

XML 文档始终只有一个根元素。如果您不关心根元素,只需忽略它并查看它的子元素!

例如,使用更现代的元素树(但 minidom 在这方面提供了类似的可能性):

try:
  import xml.etree.cElementTree as et
except ImportError:
  import xml.etree.ElementTree as et

xmlin = '''<Store>
<foo>
<book>
<isbn>123456</isbn>
</book>
<title>XYZ</title>
<checkout>no</checkout>
</foo>
<bar>
<book>
<isbn>7890</isbn>
</book>
<title>XYZ2</title>
<checkout>yes</checkout>
</bar>
</Store>'''

root = et.fromstring(xmlin)

for child in root.getchildren():
  print et.tostring(child)
于 2010-03-25T02:48:50.890 回答
0

xmldoc是一个已解析的 XML 对象。 toxml()要求它再次将自己转换回 XML 文本字符串。进一步探索:

>>> xmldoc.childNodes
[<DOM Element: Store at 0x212b788>]
>>> xmldoc.childNodes[0].childNodes
[<DOM Text node "u'\n'">, <DOM Element: foo at 0x212bcd8>, <DOM Text node "u'\n'">, <DOM Element: bar at 0x212b2d8>, <DOM Text node "u'\n'">]

然后,意识到 DOM 很难使用并阅读有关ElementTree的信息。

于 2010-03-25T03:52:23.760 回答