0

如何停止从目标网址重定向到另一个网址,该网址是带有验证码的网站的确认页面?

下面是我的代码:

yield scrapy.Request(meta={'handle_httpstatus_list': [302], 'dont_redirect': True, 'redirect_enabled':False},url=url, callback=self.profileCategoryPages)

现在它把我从一个网页重定向到另一个网页。我不知道为什么会这样。我第一次运行它时没有发生,但是当我第二次运行它时,一次又一次地运行它,我得到的只是它被重定向到另一个网页。

标记页面: http: //www.profilecanada.com/browse_by_category.cfm/

重定向到此页面: http: //www.profilecanada.com/confirmReqPage.cfm

谢谢您的帮助!

4

1 回答 1

0

我认为我被阻止的原因是我在从网站请求页面时没有延迟值。另外,我将蜘蛛创建为一个独立的爬虫程序,因此没有可修改的 settings.py。我所做的是这样的:

  1. 通过运行以下命令创建一个刮板作为项目:

    scrapy startproject

  2. 将我之前创建的程序刮板添加到我新创建的项目中的蜘蛛文件夹中

  3. 修改settings.py:

    DOWNLOAD_DELAY = , CONCURRENT_REQUESTS = 20, CONCURRENT_REQUESTS_PER_DOMAIN = 1, DOWNLOAD_TIMEOUT = 30

现在它起作用了!

于 2017-08-18T07:51:59.747 回答