我正在为一些数据抓取页面,但是我需要将文本插入文本框中,提交表单并抓取结果页面。我查看了页面源代码,但我不确定如何激活按钮或传递它的参数。
网站是http://archive.org/web/web.php 试图查看一些历史,但不知道该使用什么。对任何解决方案开放
我正在为一些数据抓取页面,但是我需要将文本插入文本框中,提交表单并抓取结果页面。我查看了页面源代码,但我不确定如何激活按钮或传递它的参数。
网站是http://archive.org/web/web.php 试图查看一些历史,但不知道该使用什么。对任何解决方案开放
首先,您应该知道单击该按钮通常会对某些 url 进行POST,以该形式传递数据,这里是:
<form id="wwmform" name="wwmform" method="get" action="http://web.archive.org/form-submit.jsp" onsubmit="document.location.href='http://web.archive.org/web/*/'+document.getElementById('wwmurl').value;return false;" style="display:inline;">
<input id="wwmurl" type="text" name="url" size="50" value="http://">
<button type="submit" name="type" value="urlquery" class="roundbox5">Take Me Back</button>
</form>
你看到action属性了吗?这就是数据的去向。
因此,在 python 中,您可能需要对数据进行编码urllib
并将urllib2
其发布到目标 url,然后获取结果。
ps:注意onsubmit