这是scrapy文档中的一个示例:
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1
但是如果我想同时设置 DOWNLOAD_DELAY = 2 和 CONCURRENT_REQUESTS = 4,怎么办?以及如何用 urllib2 做到这一点?
这是scrapy文档中的一个示例:
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1
但是如果我想同时设置 DOWNLOAD_DELAY = 2 和 CONCURRENT_REQUESTS = 4,怎么办?以及如何用 urllib2 做到这一点?
有两种解决方案。
第一个,试试这个:
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d setting=CONCURRENT_REQUESTS=4 -d arg1=val1
settings.py
第二个:在文件夹中新建一个文件myproject
(带有pipelines.py
and的目录items.py
)。并将所有设置放入其中。这是一个例子。
您可以通过将列表传递给设置参数来做到这一点
import requests
r = requests.post('http://localhost:6800/schedule.json', data={
'project': 'your_project',
'spider': 'your_spider',
'url': url,
'setting': ['key1=value1', 'key2=value2']
})