您需要使用支持 javascript 的库。我为此使用HtmlUnit,这是一个用于复制浏览器行为的出色库!
有关如何使用 javascript 访问页面的简单示例,请参阅下面这个问题的修改后的答案。
首先,查看他们的网页 ( http://htmlunit.sourceforge.net/ ) 以启动和运行 htmlunit。确保使用最新的快照(写这篇文章时是 2.12)
尝试这些设置几乎可以忽略任何障碍:
WebClient webClient = new WebClient(BrowserVersion.FIREFOX_17);
webClient.getOptions().setRedirectEnabled(true);
webClient.getOptions().setCssEnabled(false);
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
webClient.getOptions().setUseInsecureSSL(true);
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getCookieManager().setCookiesEnabled(true);
然后在获取页面时,请确保在对页面执行任何操作之前等待后台 Javascript,例如等待后台 javascript。
//Get Page
HtmlPage page1 = webClient.getPage("https://login-url/");
//Wait for background Javascript
webClient.waitForBackgroundJavaScript(10000);
//Get full page _after_ javascript has rendered it fully
System.out.println(page1.asXml());
我希望这个基本示例对您有所帮助!
您可以使用 HtmlUnit 执行浏览器可以执行的几乎所有操作,但以编程方式执行。