我想知道是否有人可以提供帮助:)
我正在使用 python lxml 和 cssselector 从 HTML 页面中抓取数据。
我可以使用此方法轻松选择大多数类,并且发现它非常方便,但我在选择带空格的类名时遇到问题
例如,我想从以下类中提取 Blah:
<li class="feature height">Blah blah</li>
我尝试使用以下 css 选择器但没有成功 - 不包括整个路径,因为这不是问题
li.feature.height
li.feature height
li.feature:height
有人知道怎么做吗?我找不到答案,并且确信这一定是人们需要做的相当普遍的事情......
我不能只选择父元素
li.feature
由于数据在不同页面上的顺序不同,因此同样适用于第 n 个元素选择...
现在在这个问题上挠头并搜索了很多,希望有人知道!
我可以通过使用 re's 获取数据来解决这个问题,但我想知道是否有一个简单的解决方案......
提前感谢您的帮助!
马特
根据要求提供额外信息 - 它不起作用,因为它返回一个空列表或布尔值的否定结果
所以如果使用
css_9_seed_height = 'html body div.seedicons ul li.feature.height'
# 9. Get seed_height
seed_height_obj = root.cssselect(css_9_seed_height)
print seed_height_obj
这将返回一个空列表 - 即找不到该类,但它在那里
您可以假设 root.cssselect() 正常工作,因为我正在以相同的方式检索许多其他信息