session - 爬取某些链接后网站禁止爬虫

Question

我遇到了scrapy的问题。当我使用scrapy spider访问网站时。20-30 分钟后，网站阻止了我的爬虫。Scrapy 总是返回 500 代码。(DELAY_TIME = 10s)

但是如果我停止scrapy并立即启动它。它可以正常爬行。我认为这个网站阻止一个会话可以查看多个页面？

运行时如何更改scrapy的会话？或者解决这个问题？

score 3 · Accepted Answer

可以有多种方法来解决这种饱和问题。

首先，您应该查看将放置在root网站上的 robots.txt 文件。确保本网站是否允许刮擦。

COOKIES_ENABLED=False仅当网站允许您禁用 cookie 时，他们才会尝试在您的设置中。大多数网站都使用 cookie 跟踪您的活动。

1 回答 1