问题是,我正在使用代理抓取一个网站,所以当我在一些计数后向网站请求时,该网站将关闭我需要的一些信息。所以我正在做的是,我在没有 login + proxies的情况下尽可能多地抓取项目,但经过一些抓取后,我知道该站点不允许数据。所以现在我必须登录!(现在登录+代理)所以登录后我继续抓取。现在的问题是,队列中已经有一些 URL(调度程序)将在没有登录的情况下被抓取(所以我想通过登录来获取该 URL,以便我可以成功抓取该数据。)所以我想要清空调度程序,其中包含在没有登录的情况下生成的 url。
所以这里是我已经做过的事情。
1 . 我登录(成功)。
2 . 启用缓存
3并将优先级 1 设置为 Login URl
关于我的可能解决方案。
1 . 在我执行登录之前重新加载所有得到响应的排队 URL(所以我必须在响应后缓存)!我怎样才能做到这一点??
2清空调度程序的队列,以便我可以用登录重新填充它(因此不需要缓存)。怎么做?? 如何通过脚本清空调度程序队列。