1

我正在为一些数据抓取页面,但是我需要将文本插入文本框中,提交表单并抓取结果页面。我查看了页面源代码,但我不确定如何激活按钮或传递它的参数。

网站是http://archive.org/web/web.php 试图查看一些历史,但不知道该使用什么。对任何解决方案开放

4

1 回答 1

1

首先,您应该知道单击该按钮通常会对某些 url 进行POST,以该形式传递数据,这里是:

<form id="wwmform" name="wwmform" method="get" action="http://web.archive.org/form-submit.jsp" onsubmit="document.location.href='http://web.archive.org/web/*/'+document.getElementById('wwmurl').value;return false;" style="display:inline;">
      <input id="wwmurl" type="text" name="url" size="50" value="http://">
      <button type="submit" name="type" value="urlquery" class="roundbox5">Take Me Back</button>
    </form>

你看到action属性了吗?这就是数据的去向。

因此,在 python 中,您可能需要对数据进行编码urllib并将urllib2其发布到目标 url,然后获取结果。

ps:注意onsubmit

于 2013-03-15T02:28:55.953 回答