7

我只想要页面的文本内容,并且我希望获取尽可能轻量级。我可以关闭 HTMLUnit 开箱即用的 JavaScript、CSS 和其他外部内容的所有解析和额外加载吗?

4

1 回答 1

12

我认为最接近您正在寻找的东西是:

WebClient webClient = new WebClient();
webClient.setCssEnabled(false);
webClient.setAppletEnabled(false);
webClient.setJavaScriptEnabled(false);

对于 HtmlUnit 2.13 及更高版本,请使用webclient.getOptions().

这个问题和答案也可能有用。它确实让我的事情变得更快,但我不得不重新编译 HtmlUnit ......

最后,为了获取页面的原始内容(而不是 的输出asXml()),请尝试以下操作:

WebClient webClient = new WebClient();
HtmlPage page = webClient.getPage("http://www.yourpage.com");
String originalHtml = page.getWebResponse().getContentAsString();
于 2012-04-10T16:21:13.000 回答