5

现在我正在开发一个网络爬虫。这个应该解析一些特定的站点并给我一个 xml 文件的输出。到目前为止,这没有问题。Crawler 可以工作,您可以通过 cfg 文件快速自定义它。我使用 Jsoup 来解析 HTML 内容。

我刚刚添加了几个站点,并注意到通过 JavaScript 创建的 HTML 内容存在巨大问题。没有办法让 Jsoup 支持 Javascript 吗?或者至少获得我可以在浏览器中看到的完整 HTML 内容。

我已经尝试过 HtmlUnit,但是这个做得不好。它没有给我在浏览器中获得的内容。

真诚的,

奥戈福

4

1 回答 1

7

Jsoup 不支持 javascript,也不模拟浏览器。如果您打算执行 Javascript,请忘记它。根据我的经验,HtmlUnit 是一个无头浏览器,它给了我最好的结果(总是谈论 Java 框架)。

在 HtmlUnit 中值得尝试的一件事是在创建实例时更改BrowserVersion(Chrome / InternetEplorer / FireFox) 。WebClient一些站点以不同的方式做出反应,有时只是更改该值可能会给您带来预期的结果。

于 2012-09-28T00:08:49.073 回答