java - 让 Jsoup 支持 JavaScript 动态生成的 html

Question

现在我正在开发一个网络爬虫。这个应该解析一些特定的站点并给我一个 xml 文件的输出。到目前为止，这没有问题。Crawler 可以工作，您可以通过 cfg 文件快速自定义它。我使用 Jsoup 来解析 HTML 内容。

我刚刚添加了几个站点，并注意到通过 JavaScript 创建的 HTML 内容存在巨大问题。没有办法让 Jsoup 支持 Javascript 吗？或者至少获得我可以在浏览器中看到的完整 HTML 内容。

我已经尝试过 HtmlUnit，但是这个做得不好。它没有给我在浏览器中获得的内容。

真诚的，

奥戈福

score 7 · Accepted Answer

Jsoup 不支持 javascript，也不模拟浏览器。如果您打算执行 Javascript，请忘记它。根据我的经验，HtmlUnit 是一个无头浏览器，它给了我最好的结果（总是谈论 Java 框架）。

在 HtmlUnit 中值得尝试的一件事是在创建实例时更改BrowserVersion（Chrome / InternetEplorer / FireFox）。WebClient一些站点以不同的方式做出反应，有时只是更改该值可能会给您带来预期的结果。

1 回答 1