0

我想以编程方式访问网页并从中提取一些信息。

我想通过Java代码登录到某个网站,让服务器感觉请求实际上是来自一个真实的浏览器。

尽管存在一个问题,但我几乎遇到了:该网站需要parameter - "sessid"与每个请求一起传递,而每个请求都会随着每个请求而不断变化。

例如,当我第一次访问该页面时sessid=90334,在下一页它就像sessid=78204

因此,url我通过应该包含的值,sessid否则身份验证失败:www.somesite.com/somepage.php?sessid=75749

该网页包含一个<input>标签,其中包含的值,sessid我必须检索该标签的值。

我怎样才能做到这一点?标签是这样的:

<input type="hidden" name="sessid" value="69529">

我可以使用以下代码成功阅读整个网页:

   BufferedReader rd = new BufferedReader(new InputStreamReader(conn.getInputStream()));

    StringBuilder response = new StringBuilder();
    String line;
    while ((line = rd.readLine()) != null) {
        response.append(line);
    }
4

1 回答 1

0

您可以使用类indexOf的方法StringBuilder

    String startInputFragment = "<input type=\"hidden\" name=\"sessid\" value=\"";
    int startIdx = response.indexOf(startInputFragment);
    if (startIdx >= 0) {
        int endIdx = response.indexOf("\">", startIdx);
        String val = response.substring(startIdx + startInputFragment.length(),
                endIdx);
        System.out.println("-->" + val + "<--");
    } else {
        //tag not found: you may throw an ex or do something else
    }
于 2012-11-15T04:38:49.387 回答