1

我需要使用scrapy解析一个网站。html页面模式如下

div 类="名称信息"
     div 类="namesub"
           跨度类="namesub">/span>
           span class="info"> 1 类数据/span>
     /div
     div 类="namesub">
          跨度类="namesub">/span>
          span class="info"> 2 类数据/span>
    /div>
div 类="namesub"> 跨度类="namesub">/span> span class="info">第三类数据/span>> /div> /div
我有上面标记的三种不同类型的数据。知道如何获得所需的数据。它们都在 div 内的 span 元素中,类属性为“namesub”。提前致谢 :)

4

1 回答 1

3

这是你应该在你的蜘蛛里面放的东西:

hxs = HtmlXPathSelector(response)

namesubs = hxs.select("//div[@class='namesub']")
for namesub in namesubs:
    item = MyItem()
    item["info"] = namesub.select('.//span[@class="info"]/text()').extract()[0]

    yield item

此代码假定您已使用字段定义MyItem项目类。info

希望有帮助。

于 2013-07-09T13:23:13.483 回答