我正在尝试抓取需要身份验证的网页。当我登录时,我可以在浏览器中访问该页面,使用 JSoup http://jsoup.org/库来解析 HTML 页面。
public static void main(String[] args) throws IOException {
// need http protocol
Document doc = Jsoup.connect("http://www.secinfo.com/$/SEC/Filing.asp?T=r643.91Dx_2nx").get();
// get page title
String title = doc.title();
System.out.println("title : " + title);
// get all links
Elements links = doc.select("a");
for (Element link : links) {
// get the value from href attribute
System.out.println("\nlink : " + link.attr("href"));
}
System.out.println();
}
输出 :
title : SEC Info - Sign In
这是获取登录页面的内容,而不是我传递的实际 URL。我在 secinfo.com 上注册,在运行这个程序时,我从我的默认浏览器 Firefox 登录。