我正在使用带有 crawlera(来自 scrapinghub 的 C100 计划)和 python 3.6 的 scrapy 1.7.3。
在启用 crawlera 的情况下运行蜘蛛时,我每分钟大约可以处理 20 到 40 个项目。如果没有 crawlera,我会得到 750 - 1000(但我当然很快就会被禁止)。
我配置错了吗?使用 crawlera,我应该每分钟至少获得 150 - 300 件物品,不是吗?自动油门被禁用。
下面你会看到我的蜘蛛和我的蜘蛛设置.py 的一部分。
import scrapy
from ecom.items import EcomItem
class AmazonSpider(scrapy.Spider):
name = "amazon_products"
start_urls = ["https://www.amazon.fr/gp/browse.html?node=3055095031&rh=p_76:1&page=2"]
def parse(self, response):
product_urls = response.xpath("//a[@class='a-link-normal s-access-detail-page s-color-twister-title-link a-text-normal']/@href").extract()
for product_url in product_urls:
yield response.follow(product_url, self.parse_product)
def parse_product(self, response):
item = EcomItem()
item["url"] = response.url
yield item
设置.py
CRAWWLERA_PRESERVE_DELAY = 0
CONCURRENT_REQUESTS = 80
CONCURRENT_REQUESTS_PER_DOMAIN = 80
DOWNLOAD_TIMEOUT = 20
LOG_LEVEL = 'ERROR'
RANDOMIZE_DOWNLOAD_DELAY = True
DOWNLOAD_DELAY = 0
AUTOTHROTTLE_DEBUG = False
AUTOTHROTTLE_MAX_DELAY = 4
AUTOTHROTTLE_START_DELAY = 0
AUTOTHROTTLE_ENABLED = False
COOKIES_ENABLED = False