这是我的xml文件的一部分..
- <a:p>
- <a:pPr lvl="2">
- <a:spcBef>
<a:spcPts val="200" />
</a:spcBef>
</a:pPr>
- <a:r>
<a:rPr lang="en-US" sz="1400" dirty="0" smtClean="0" />
<a:t>The</a:t>
</a:r>
- <a:r>
<a:rPr lang="en-US" sz="1400" dirty="0" />
<a:t>world</a:t>
</a:r>
- <a:r>
<a:rPr lang="en-US" sz="1400" dirty="0" smtClean="0" />
<a:t>is small</a:t>
</a:r>
</a:p>
- <a:p>
- <a:pPr lvl="2">
- <a:spcBef>
<a:spcPts val="200" />
</a:spcBef>
</a:pPr>
- <a:r>
<a:rPr lang="en-US" sz="1400" dirty="0" smtClean="0" b="0" />
<a:t>The</a:t>
</a:r>
- <a:r>
<a:rPr lang="en-US" sz="1400" dirty="0" b="0" />
<a:t>world</a:t>
</a:r>
- <a:r>
<a:rPr lang="en-US" sz="1400" dirty="0" smtClean="0" b="0" />
<a:t>is too big</a:t>
</a:r>
</a:p>
我已经使用 lxml 编写了一个代码来提取文本。但是,由于句子分为两行,我想将这两行连接起来形成一个句子,例如The world is small...
. 所以在这里我写了一段代码:
path4 = file.xpath('/p:sld/p:cSld/p:spTree/p:sp/p:txBody/a:p/a:r/a:rPr', namespaces={'p':'http://schemas.openxmlformats.org/presentationml/2006/main',
'a':'http://schemas.openxmlformats.org/drawingml/2006/main'})
if path5:
for a in path4:
if a.get('sz') == '1400' and a.xpath('node()') == [] and a.get('b') != '0':
b = a.getparent()
c = b.getparent()
d = c.xpath('./a:r/a:t/text()' , namespaces {'p':'http://schemas.openxmlformats.org/presentationml/2006/main', 'a':'http://schemas.openxmlformats.org/drawingml/2006/main'})
print ''.join(d)
elif a.get('sz') == '1400' and a.xpath('node()') == [] and a.get('b') == '0':
b = a.getparent()
c = b.getparent()
d = c.xpath('./a:r/a:t/text()' , namespaces {'p':'http://schemas.openxmlformats.org/presentationml/2006/main', 'a':'http://schemas.openxmlformats.org/drawingml/2006/main'})
print ''.join(d)
我得到输出:
The world is samll...
The world is small...
The world is small...
预期输出:
the world is small...
有什么建议么?