python - 如何在 Scrapy 中更改用户代理和延迟时间？

Question

我正在使用 Scrapy 0.16.4

我已使用此代码更改下载延迟和用户代理：

DOWNLOAD_DELAY = 2
USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.97 Safari/537.22 AlexaToolbar/alxg-3.1"

我不确定这是否有效，但是，我仍然无法完全抓取该站点的所有页面。它总是给我一个随机刮掉的物品。有时，我得到 13 个，有时我得到 30 个，有时我得到 52 个报废物品。

可能是什么问题？

score 4 · Accepted Answer

某些网站的每个 ip 可能存在访问限制。他们很可能不会为不同的用户代理（如 chrome、firefox、ie 或 safari 等）积累访问号码，因此您可以尝试使用动态用户代理池来减轻大量访问。

这是如何“在 Scrapy 中使用随机用户代理”的链接

score 0 · Accepted Answer

也许该站点使用验证码阻止了您，您可以打印 response.url 并查看您是否获得了推荐人，尝试将 DOWNLOAD_DELAY 设置为 10，您可以将其设置到蜘蛛并打印 url，如果需要 10 秒打印它的工作。

python - 如何在 Scrapy 中更改用户代理和延迟时间？

2 回答 2

Related

Reference