0

我必须解析一些 HTML。但是,它的格式不正确。您可以看到文本“Cowabunga”不包含在任何 HTML 元素中。

from lxml.html import fromstring
from lxml.cssselect import CSSSelector

stuff = '''<p>
                <span id="alpha" style="color: #999; "></span> 
                <span id="bravo" style="color: #999; "></span> 
                Cowabunga  
            </p>'''

l = CSSSelector ("p")

e = l(fromstring(stuff))
print e[0].text

如何使用 lxml/Python 编写 CSSSelector 来定位此文本?

谢谢

编辑:上面的代码给出了空白输出——只有一行空格——我需要捕捉“Cowabunga”

4

1 回答 1

2

这是混合内容,所以总是有点粗糙。e[0].text_content()将获得您示例中的所有文本。

于 2012-07-23T19:03:06.507 回答