0

我想在我的scrapyitems.py文件中包含一个响应字段,如下所示:

class ScrapyItem(Item):
    title = Field()
    h1 = Field()
    response = Field()

我以为我可以response.status在我的spider.py文件中使用,但这200每次都会给我一个状态码。我希望它用 , 填充301302或者404如果页面被重定向或找不到。

有没有办法在 Scrapy 中做到这一点?

4

1 回答 1

0

Scrapy 会为你提供一些东西(这是一个设计决定)。你需要做两件事:

  1. 在您的蜘蛛中,编写以下内容来处理错误响应

    handle_httpstatus_list = range( 400, 427 ) + range( 500, 511 )

  2. 禁用处理 3xx 状态标头的RedirectMiddleware

现在您可以从response.status字段中读取状态。

于 2012-09-26T08:35:07.747 回答