0

我正在抓取第一页链接到所有工作的工作网站。现在我从第一页存储标题、工作、公司。

但我也想存储描述,可通过单击职位名称获得。我也想将它与当前项目一起存储。

这是我当前的代码

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    sites = hxs.select("//div[@class='jobenteries']")
    items = []
    for site in sites[:3]:
        print "Hello"
        item = DmozItem()
        item['title'] = site.select('a/text()').extract()
        item['desc'] = ''
        items.append(item)
    return items

但是该描述在下一页链接上。我怎样才能做到这一点

4

1 回答 1

3

从第一页返回第二页的 Requests 并传递 request.meta 字典中每个项目的数据。在第二页的回调方法上,您可以读取您传递的数据并返回完全填充的项目。

有关更多详细信息和示例,请参阅在 scrapy 文档中将附加数据传递给回调函数。

于 2012-11-22T10:42:09.647 回答