比如说,我浏览到需要登录才能访问内容的网站(也在 Intranet 上)。我将填写必填字段...例如,从浏览器本身登录所需的用户名、密码和任何验证码等。
一旦我登录到该站点,登录后可以从第一页上的多个链接和选项卡中抓取很多好东西。
现在,从这一点开始(即从浏览器登录后)..我想控制页面并从 urllib2 下载......就像逐页浏览,在每个页面上下载 pdf 和图像等。
我知道我们可以直接使用 urllib2(或机械化)中的所有内容(即登录到页面并完成整个操作)。
但是,对于某些网站.. 了解登录机制、所需的隐藏参数、引荐来源、验证码、cookie 和弹出窗口真的很痛苦。
请指教。希望我的问题有意义。
总之,我希望使用网络浏览器手动完成初始登录部分......然后接管自动化以通过 urllib2 抓取。