我想以编程方式访问网页并从中提取一些信息。
我想通过Java
代码登录到某个网站,让服务器感觉请求实际上是来自一个真实的浏览器。
尽管存在一个问题,但我几乎遇到了:该网站需要parameter - "sessid"
与每个请求一起传递,而每个请求都会随着每个请求而不断变化。
例如,当我第一次访问该页面时sessid=90334
,在下一页它就像sessid=78204
。
因此,url
我通过应该包含的值,sessid
否则身份验证失败:www.somesite.com/somepage.php?sessid=75749
。
该网页包含一个<input>
标签,其中包含的值,sessid
我必须检索该标签的值。
我怎样才能做到这一点?标签是这样的:
<input type="hidden" name="sessid" value="69529">
我可以使用以下代码成功阅读整个网页:
BufferedReader rd = new BufferedReader(new InputStreamReader(conn.getInputStream()));
StringBuilder response = new StringBuilder();
String line;
while ((line = rd.readLine()) != null) {
response.append(line);
}