0

我正在使用 Scrapy 0.16.4

我已使用此代码更改下载延迟和用户代理:

DOWNLOAD_DELAY = 2
USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.97 Safari/537.22 AlexaToolbar/alxg-3.1"

我不确定这是否有效,但是,我仍然无法完全抓取该站点的所有页面。它总是给我一个随机刮掉的物品。有时,我得到 13 个,有时我得到 30 个,有时我得到 52 个报废物品。

可能是什么问题?

4

2 回答 2

4

某些网站的每个 ip 可能存在访问限制。他们很可能不会为不同的用户代理(如 chrome、firefox、ie 或 safari 等)积累访问号码,因此您可以尝试使用动态用户代理池来减轻大量访问。

是如何“在 Scrapy 中使用随机用户代理”的链接

于 2013-12-06T08:34:58.380 回答
0

也许该站点使用验证码阻止了您,您可以打印 response.url 并查看您是否获得了推荐人,尝试将 DOWNLOAD_DELAY 设置为 10,您可以将其设置到蜘蛛并打印 url,如果需要 10 秒打印它的工作。

于 2013-02-28T16:25:23.890 回答