web-scraping - scrapy- 如何停止重定向 (302)

Question

我正在尝试使用 Scrapy 抓取网址。但它会将我重定向到不存在的页面。

Redirecting (302) to <GET http://www.shop.inonit.in/mobile/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/1275197> from <GET http://www.shop.inonit.in/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/pid-1275197.aspx>

问题是http://www.shop.inonit.in/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/pid-1275197.aspx存在，但http://www.shop.inonit.in/mobile/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/1275197没有，所以爬虫找不到这个。我也爬过许多其他网站，但在其他任何地方都没有这个问题。有没有办法可以阻止这个重定向？

任何帮助将非常感激。谢谢。

更新：这是我的蜘蛛类

class Inon_Spider(BaseSpider):
name = 'Inon'
allowed_domains = ['www.shop.inonit.in']

start_urls = ['http://www.shop.inonit.in/Products/Inonit-Gadget-Accessories-Mobile-Covers/-The-Red-Tag/Samsung-Note-2-Dead-Mau/pid-2656465.aspx']

def parse(self, response):

    item = DealspiderItem()
    hxs = HtmlXPathSelector(response)

    title = hxs.select('//div[@class="aboutproduct"]/div[@class="container9"]/div[@class="ctl_aboutbrand"]/h1/text()').extract()
    price = hxs.select('//span[@id="ctl00_ContentPlaceHolder1_Price_ctl00_spnWebPrice"]/span[@class="offer"]/span[@id="ctl00_ContentPlaceHolder1_Price_ctl00_lblOfferPrice"]/text()').extract()
    prc = price[0].replace("Rs.  ","")
    description = []

    item['price'] = prc
    item['title'] = title
    item['description'] = description
    item['url'] = response.url

    return item

score 20 · Accepted Answer

是的，你可以简单地通过添加元值来做到这一点

meta={'dont_redirect': True}

您也可以停止重定向特定响应代码，例如

meta={'dont_redirect': True,"handle_httpstatus_list": [302]}

它将停止仅重定向 302 响应代码。您可以添加尽可能多的 http 状态代码以避免重定向它们。

例子

yield Request('some url',
    meta = {
        'dont_redirect': True,
        'handle_httpstatus_list': [302]
    },
    callback= self.some_call_back)

score 11 · Accepted Answer

在查看文档并查看相关来源后，我能够弄清楚。如果您查看 start_requests 的源代码，您会看到它为所有 URL 调用 make_requests_from_url。

我没有修改 start_requests，而是修改了 make_requests_from_url

def make_requests_from_url(self, url):
    return Request(url, dont_filter=True, meta = {
        'dont_redirect': True,
        'handle_httpstatus_list': [301, 302]
    })

并将其添加为我的蜘蛛的一部分，就在上面parse()。

score 8 · Accepted Answer

默认情况下，Scrapy 用于RedirectMiddleware处理重定向。您可以设置REDIRECT_ENABLED为 False 以禁用重定向。

请参阅文档。

score 3 · Accepted Answer

如此处所述：Scrapy docs

使用请求元

request =  scrapy.Request(link.url, callback=self.parse2)
request.meta['dont_redirect'] = True
yield request

web-scraping - scrapy- 如何停止重定向 (302)

4 回答 4

Related

Reference