如我们所见:
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li')
items = []
for site in sites:
item = Website()
item['name'] = site.select('a/text()').extract()
item['url'] = site.select('//a[contains(@href, "http")]/@href').extract()
item['description'] = site.select('text()').extract()
items.append(item)
return items
scrapy 只是得到一个页面响应,并在页面响应中找到 url。我认为这只是表面爬行!!
但我想要更多具有定义深度的网址。
我能做些什么来实现它?
谢谢你!!