有一个可以抓取的网站,带有 POST 身份验证。
拥有登录名和密码后,我如何抓取本网站的封闭部分?
当然,您可以使用 urllib2 进行 POST 身份验证并进行爬网。requests
但是,如果您还没有学习 urllib2,那么使用 nice库可能会好得多。
您可以在http://docs.python-requests.org/en/latest/index.html找到说明和非常好的教程。
要安装软件包,请执行pip install requests
. 在 Mac 或其他 Unix 系统上,您需要在命令前加上sudo
,像这样sudo pip install requests
您应该观看Asheesh Laroia最近的 PyCon 演讲,标题为“ Web 抓取:可靠且高效地提取数据”
讲座时间为 2 小时 39 分钟,但涵盖了很多内容,而且节奏很友好。事实上,这是我看过的最好的编程视频之一。
这个类似的问题可能会有所帮助:如何使用 Python 登录网页并检索 cookie 以供以后使用?还有这个:Python Site Login,最后这个:Login to website using python展示了如何在会话的其余部分登录和使用登录的 cookie,从而让您解析/抓取“关闭”部分。查看urllib以获得更多帮助