0

我必须从 xml 节点及其子节点中获取纯文本,或者这些奇怪的内部标签是什么:

示例节点:

<BookTitle>
<Emphasis Type="Italic">Z</Emphasis>
 = 63 - 100
</BookTitle>

或者:

<BookTitle>
Mtn
<Emphasis Type="Italic">Z</Emphasis>
 = 74 - 210
</BookTitle>

我必须得到:

Z = 63 - 100
Mtn Z = 74 - 210

请记住,这只是一个例子!BookTitle 节点中可能有任何类型的“子节点”,而我需要的只是 BookTitle 中的纯文本。

我试过了:

tagtext = root.find('.//BookTitle').text
print tagtext

但是 .text 无法处理这个奇怪的 xml 节点并给我一个“NoneType”回来

问候和感谢!

4

2 回答 2

2

那不是text节点的BookTitle,而是节点tailEmphasis。因此,您应该执行以下操作:

def parse(el):
    text = el.text.strip() + ' ' if el.text.strip() else ''
    for child in el.getchildren():
        text += '{0} {1}\n'.format(child.text.strip(), child.tail.strip())
    return text

这给了你:

>>> root = et.fromstring('''
    <BookTitle>
    <Emphasis Type="Italic">Z</Emphasis>
     = 63 - 100
    </BookTitle>''')
>>> print parse(root)
Z = 63 - 100

对于:

>>> root = et.fromstring('''
<BookTitle>
Mtn
<Emphasis Type="Italic">Z</Emphasis>
 = 74 - 210
</BookTitle>''')
>>> print parse(root)
Mtn Z = 74 - 210

这应该给你一个基本的想法。

更新:修复了空格...

于 2013-08-26T12:16:29.480 回答
0

您可以使用 minidom 解析器。这是一个例子:

from xml.dom import minidom

def strip_tags(node):
    text = ""
    for child in node.childNodes:
        if child.nodeType == doc.TEXT_NODE:
            text += child.toxml()
        else:
            text += strip_tags(child)
    return text

doc = minidom.parse("<your-xml-file>")

text = strip_tags(doc)

strip_tags 递归函数将浏览 xml 树并按顺序提取文本。

于 2013-08-26T12:17:45.213 回答