我必须解析一些 HTML。但是,它的格式不正确。您可以看到文本“Cowabunga”不包含在任何 HTML 元素中。
from lxml.html import fromstring
from lxml.cssselect import CSSSelector
stuff = '''<p>
<span id="alpha" style="color: #999; "></span>
<span id="bravo" style="color: #999; "></span>
Cowabunga
</p>'''
l = CSSSelector ("p")
e = l(fromstring(stuff))
print e[0].text
如何使用 lxml/Python 编写 CSSSelector 来定位此文本?
谢谢
编辑:上面的代码给出了空白输出——只有一行空格——我需要捕捉“Cowabunga”