0

我想知道是否有人可以提供帮助:)

我正在使用 python lxml 和 cssselector 从 HTML 页面中抓取数据。

我可以使用此方法轻松选择大多数类,并且发现它非常方便,但我在选择带空格的类名时遇到问题

例如,我想从以下类中提取 Blah:

<li class="feature height">Blah blah</li>

我尝试使用以下 css 选择器但没有成功 - 不包括整个路径,因为这不是问题

li.feature.height
li.feature height
li.feature:height

有人知道怎么做吗?我找不到答案,并且确信这一定是人们需要做的相当普遍的事情......

我不能只选择父元素

li.feature 

由于数据在不同页面上的顺序不同,因此同样适用于第 n 个元素选择...

现在在这个问题上挠头并搜索了很多,希望有人知道!

我可以通过使用 re's 获取数据来解决这个问题,但我想知道是否有一个简单的解决方案......

提前感谢您的帮助!

马特

根据要求提供额外信息 - 它不起作用,因为它返回一个空列表或布尔值的否定结果

所以如果使用

css_9_seed_height = 'html body div.seedicons ul li.feature.height'

# 9. Get seed_height
seed_height_obj = root.cssselect(css_9_seed_height)
print seed_height_obj

这将返回一个空列表 - 即找不到该类,但它在那里

您可以假设 root.cssselect() 正常工作,因为我正在以相同的方式检索许多其他信息

4

0 回答 0