0

我以为我找到了使用 RFC2616 策略的解决方案,但在测试刮板执行时间时,它似乎仍然说同样的话。所以我回到了默认策略。

我将我的 image_urls 指向

'production.pipelines.MyImagesPipeline'

现在我只需要缓存我发送到项目 image_urls 的 url

现在根据我的理解,您可以通过指定覆盖策略

class DummyPolicy(object):

def should_cache_response(self, response, request):
    if image_url in item['image_urls']:
        return True
    else:
        return False


def is_cached_response_valid(self, cachedresponse, response, request):
    return True

有什么代码建议可以让它工作吗?

4

1 回答 1

0

我通过将元 dont_cache 添加到某些产量请求来创建一个解决方案:

yield scrapy.Request(url, self.parse, meta={'dont_cache': True})
于 2016-12-01T09:57:43.737 回答