1

我想是否可以使用 scrapy + crawlera 来抓取 https 页面。到目前为止,我正在使用具有以下设置的 Python 请求:

proxy_host = 'proxy.crawlera.com'
proxy_port = '8010'
proxy_auth = 'MY_KEY'
proxies    = {
    "https": "https://{}@{}:{}/".format(proxy_auth, proxy_host, 
proxy_port),
    "http": "http://{}@{}:{}/".format(proxy_auth, proxy_host, proxy_port)
}
ca_cert    = 'crawlera-ca.crt'

res = requests.get(url='https://www.google.com/',
    proxies=proxies,
    verify=ca_cert
)

我想通过 Scrapy 进入异步执行。我知道有scrapy-crawlera插件,但是当我有证书时我不知道如何配置它。此外,还有一件事困扰着我。Crawlera 有不同的定价计划。最基本的是 C10,它允许 10 个并发请求。这是什么意思?我需要CONCURRENT_REQUESTS=10在settings.py中设置吗?

4

1 回答 1

0

scrapy-crawlera 文档中有一个配置部分应该可以解决您的大部分疑问。

于 2019-01-11T15:34:29.930 回答