我们一直在使用scrapy-splash
中间件将抓取的 HTML 源代码通过在Splash
docker 容器内运行的 javascript 引擎传递。
如果我们想在蜘蛛中使用 Splash,我们配置几个必需的项目设置并产生一个Request
指定的特定meta
参数:
yield Request(url, self.parse_result, meta={
'splash': {
'args': {
# set rendering arguments here
'html': 1,
'png': 1,
# 'url' is prefilled from request url
},
# optional parameters
'endpoint': 'render.json', # optional; default is render.json
'splash_url': '<url>', # overrides SPLASH_URL
'slot_policy': scrapyjs.SlotPolicy.PER_DOMAIN,
}
})
这按记录工作。但是,我们如何scrapy-splash
在Scrapy Shell中使用呢?