0

我遇到了scrapy的问题。当我使用scrapy spider访问网站时。20-30 分钟后,网站阻止了我的爬虫。Scrapy 总是返回 500 代码。(DELAY_TIME = 10s)

但是如果我停止scrapy并立即启动它。它可以正常爬行。我认为这个网站阻止一个会话可以查看多个页面?

运行时如何更改scrapy的会话?或者解决这个问题?

4

1 回答 1

3

可以有多种方法来解决这种饱和问题。

首先,您应该查看将放置在root网站上的 robots.txt 文件。确保本网站是否允许刮擦。

COOKIES_ENABLED=False仅当网站允许您禁用 cookie 时,他们才会尝试在您的设置中。大多数网站都使用 cookie 跟踪您的活动。

于 2013-04-10T07:34:31.443 回答