我正在用wombat写一个爬虫。不知何故,我正在使用 CSS 选择器,而不是 XPATH。而且我在这里有非常困难的选择——我无法使用 css 实现。
我有要从页面中获取的 div 元素:
<div class="do_cat_ads_box"> ... </div>
<div class="do_cat_ads_box2"> ... </div>
<div class="do_cat_ads_box" style=".."> ...</div>
<div class="do_cat_ads_box2" style=".."> ... </div>
但是具有“样式”属性的元素是我不需要的垃圾(广告)。
所以我的问题是,我可以获取所有具有“do_cat_ads_box”和“do_cat_ads_box2”类的 div 元素,但避免使用具有“style”属性的 div 元素吗?
我最终得到了这样的东西,但它不起作用:
application 'css=div.do_cat_ads_box2, div.do_cat_ads_box, div.do_cat_ads_box:not(@style)', :iterator do
href 'css=div.do_cat_ads_image a @href'
name 'css=div.do_cat_ads_detail a'
end
如果它不是使用 css 选择器的两倍,那么总是有 xpath 方式。但我对 css-selectors 方法非常感兴趣。