我的 XML 文件如下所示:
<strings>
<string>Bla <b>One & Two</b> Foo</string>
</strings>
我想在维护内部标签的同时提取每个 <string> 的内容。也就是说,我希望看到以下 Python 字符串:u"Bla <b>One & Two</b> Foo"。或者,我想我可以选择 u"Bla <b>One & Two</b> Foo",然后尝试自己替换实体。
我目前正在使用 lxml,它允许我迭代嵌套标签,错过不在标签内的文本,或者在所有文本内容(itertext)上,丢失标签信息。我可能错过了一些东西。
如果可能的话,我更愿意保留 lxml,但如果需要,我可以切换到另一个库。