2

我已经做了几个月的网络抓取,并且总是卡在使用 javascript 加载数据的页面上。
我在使用 HTMLunit 的此类页面上取得了一定程度的成功,但有时 Htmlunit 会抛出这些不寻常的异常并最终无法加载页面。好吧,我不得不说使用 HTMLunit 很受欢迎。
有没有具体的方法来实现它?
但就我而言,我还没有深入研究 HTMLunit。那么你的建议是什么?我应该坚持使用 HTMLunit 还是有其他好的方法(库)来实现 javascript 处理?

只是为了记录,我使用 Java 作为我的主要语言。

4

1 回答 1

1

我已经使用 Htmlunit 进行网页抓取 2-3 年了,有一些配置可以帮助您处理加载问题:

webClient.setAjaxController(new NicelyResynchronizingAjaxController());
// Edit some js, prior to execution
webClient.setScriptPreProcessor(new JavascriptPreProcessor() { ... } );
// Avoid throwing errors on JS execution
webClient.setThrowExceptionOnScriptError(false);
// Avoid throwing errors because of wrong response codes
webClient.setThrowExceptionOnFailingStatusCode(false);
于 2013-06-06T17:44:03.890 回答