python - Python从文档中去除XML标签

Question

我正在尝试使用 Python 从文档中删除 XML 标记，Python 是一种我是新手的语言。这是我第一次尝试使用正则表达式，whixh 确实是一个最好的想法。

mfile = file("somefile.xml","w")

for line in mfile:
    re.sub('<./>',"",line) #trying to match elements between < and />

那惨遭失败。我想知道应该如何使用正则表达式。

这似乎有效。但我想知道有没有更简单的方法来摆脱所有 xml 标签？也许使用元素树？

score 24 · Accepted Answer

最可靠的方法可能是使用LXML。

from lxml import etree
...
tree = etree.parse('somefile.xml')
notags = etree.tostring(tree, encoding='utf8', method='text')
print(notags)

它将避免使用正则表达式“解析”XML 的问题，并且应该正确处理转义和所有事情。

score 15 · Accepted Answer

不需要 lxml 外部库的耶利米答案的替代方案：

import xml.etree.ElementTree as ET
...
tree = ET.fromstring(Text)
notags = ET.tostring(tree, encoding='utf8', method='text')
print(notags)

应该适用于任何 Python >= 2.5

score 4 · Accepted Answer

请注意，通常用正则表达式来做是不正常的。见耶利米的回答。

试试这个：

import re

text = re.sub('<[^<]+>', "", open("/path/to/file").read())
with open("/path/to/file", "w") as f:
    f.write(text)

3 回答 3