我正在尝试构建一个网络爬虫来从 MWO Mercs 中提取我的统计数据。为此,必须登录该页面,然后浏览 6 个不同的统计页面以获取数据(稍后将进入数据库,但这不是我的问题)。
下面给出了登录表单(来自https://mwomercs.com/login?return=/profile/stats?type=mech)-据我所知,有两个字段需要数据EMAIL和PASSWORD并且需要发布。然后它应该打开http://mwomercs.com/profile/stats?type=mech。之后,我需要有一个会话来循环浏览各种统计页面。
我曾尝试使用urllib、mechanize和requests,但我完全找不到正确的答案——我更喜欢使用requests。
我确实意识到在stackoverflow中已经提出了类似的问题,但我已经搜索了很长时间没有成功。
感谢您提供的任何帮助
<div id="stubPage">
<div class="container">
<h1 id="stubPageTitle">LOGIN</h1>
<div id="loginForm">
<form action="/do/login" method="post">
<legend>MechWarrior Online <a href="/signup" class="btn btn-warning pull-right">REGISTER</a></legend>
<label>Email Address:</label>
<div class="input-prepend"><span class="add-on textColorBlack textPlain">@</span><input id="email" name="email" class="span4" size="16" type="text" placeholder="user@example.org"></div>
<label>Password:</label>
<div class="input-prepend"><span class="add-on"><span class="icon-lock"></span></span><input id="password" name="password" class="span4" size="16" type="password"></div>
<br>
<button type="submit" class="btn btn-large btn-block btn-primary">LOGIN</button>
<br>
<span class="pull-right">[ <a href="#" id="forgotLink">Forgot Your Password?</a> ]</span>
<br>
<input type="hidden" name="return" value="/profile/stats?type=mech">
</form>
</div>
</div>
</div>