如我们所见:
def parse(self, response):
    hxs = HtmlXPathSelector(response)
    sites = hxs.select('//ul/li')
    items = []
    for site in sites:
        item = Website()
        item['name'] = site.select('a/text()').extract()
        item['url'] = site.select('//a[contains(@href, "http")]/@href').extract()
        item['description'] = site.select('text()').extract()
        items.append(item)
    return items
scrapy 只是得到一个页面响应,并在页面响应中找到 url。我认为这只是表面爬行!!
但我想要更多具有定义深度的网址。
我能做些什么来实现它?
谢谢你!!