我在下面有以下 XML 示例:
<a:p>
<a:r>
<a:rPr lang="en-US" dirty="0"/>
<a:t>Go for a </a:t>
</a:r>
<a:r>
<a:rPr lang="en-US" dirty="0" smtClean="0"/>
<a:t>test-drive</a:t>
</a:r>
<a:r>
<a:rPr lang="de-DE" dirty="0" smtClean="0">
<a:hlinkClick r:id="rId11"/>
</a:rPr>
<a:t>http</a:t>
</a:r>
<a:r>
<a:rPr lang="de-DE" dirty="0">
<a:hlinkClick r:id="rId11"/>
</a:rPr>
<a:t>://</a:t>
</a:r>
<a:r>
<a:rPr lang="de-DE" dirty="0" smtClean="0">
<a:hlinkClick r:id="rId11"/>
</a:rPr>
<a:t>google.com</a:t>
</a:r>
<a:r>
<a:rPr lang="de-DE" dirty="0" smtClean="0"/>
<a:t>.</a:t>
</a:r>
</a:p>
我必须遍历所有a:r
节点并text
退出没有子节点的节点a:hlinkClick
。例如,输出应如下所示:
Go for a test drive .
链接必须是exculded
. 我在 python 中完成了以下操作以获得link
唯一的:
if d.xpath('./a:r/a:rPr[@dirty="0"]/a:hlinkClick[@r:id]', namespaces=NAMESPACES) != []:
e = d.xpath('./a:r/a:rPr/a:hlinkClick/../../a:t/text()', namespaces=NAMESPACES)
print ''.join(e)
但现在我想知道如何继续获取文本。任何建议,将不胜感激。谢谢