python - 用空格（\s）Python lxml搜索类名

翻译自：https://stackoverflow.com/questions/16039940 2013-04-16T14:38:00.603

285 次

我想知道是否有人可以提供帮助:)

我正在使用 python lxml 和 cssselector 从 HTML 页面中抓取数据。

我可以使用此方法轻松选择大多数类，并且发现它非常方便，但我在选择带空格的类名时遇到问题

例如，我想从以下类中提取 Blah：

<li class="feature height">Blah blah</li>

我尝试使用以下 css 选择器但没有成功 - 不包括整个路径，因为这不是问题

li.feature.height
li.feature height
li.feature:height

有人知道怎么做吗？我找不到答案，并且确信这一定是人们需要做的相当普遍的事情......

我不能只选择父元素

li.feature

由于数据在不同页面上的顺序不同，因此同样适用于第 n 个元素选择...

现在在这个问题上挠头并搜索了很多，希望有人知道！

我可以通过使用 re's 获取数据来解决这个问题，但我想知道是否有一个简单的解决方案......

提前感谢您的帮助！

马特

根据要求提供额外信息 - 它不起作用，因为它返回一个空列表或布尔值的否定结果

所以如果使用

css_9_seed_height = 'html body div.seedicons ul li.feature.height'

# 9. Get seed_height
seed_height_obj = root.cssselect(css_9_seed_height)
print seed_height_obj

这将返回一个空列表 - 即找不到该类，但它在那里

您可以假设 root.cssselect() 正常工作，因为我正在以相同的方式检索许多其他信息

python - 用空格（\s）Python lxml搜索类名

0 回答 0

Related

Reference