python - Python：使用 lxml 定位跨度之外的文本

Question

我必须解析一些 HTML。但是，它的格式不正确。您可以看到文本“Cowabunga”不包含在任何 HTML 元素中。

from lxml.html import fromstring
from lxml.cssselect import CSSSelector

stuff = '''<p>
                <span id="alpha" style="color: #999; "></span> 
                <span id="bravo" style="color: #999; "></span> 
                Cowabunga  
            </p>'''

l = CSSSelector ("p")

e = l(fromstring(stuff))
print e[0].text

如何使用 lxml/Python 编写 CSSSelector 来定位此文本？

谢谢

编辑：上面的代码给出了空白输出——只有一行空格——我需要捕捉“Cowabunga”

score 2 · Accepted Answer

这是混合内容，所以总是有点粗糙。e[0].text_content()将获得您示例中的所有文本。

python - Python：使用 lxml 定位跨度之外的文本

1 回答 1

Related

Reference