我想是否可以使用 scrapy + crawlera 来抓取 https 页面。到目前为止,我正在使用具有以下设置的 Python 请求:
proxy_host = 'proxy.crawlera.com'
proxy_port = '8010'
proxy_auth = 'MY_KEY'
proxies = {
"https": "https://{}@{}:{}/".format(proxy_auth, proxy_host,
proxy_port),
"http": "http://{}@{}:{}/".format(proxy_auth, proxy_host, proxy_port)
}
ca_cert = 'crawlera-ca.crt'
res = requests.get(url='https://www.google.com/',
proxies=proxies,
verify=ca_cert
)
我想通过 Scrapy 进入异步执行。我知道有scrapy-crawlera插件,但是当我有证书时我不知道如何配置它。此外,还有一件事困扰着我。Crawlera 有不同的定价计划。最基本的是 C10,它允许 10 个并发请求。这是什么意思?我需要CONCURRENT_REQUESTS=10
在settings.py中设置吗?