现在我正在开发一个网络爬虫。这个应该解析一些特定的站点并给我一个 xml 文件的输出。到目前为止,这没有问题。Crawler 可以工作,您可以通过 cfg 文件快速自定义它。我使用 Jsoup 来解析 HTML 内容。
我刚刚添加了几个站点,并注意到通过 JavaScript 创建的 HTML 内容存在巨大问题。没有办法让 Jsoup 支持 Javascript 吗?或者至少获得我可以在浏览器中看到的完整 HTML 内容。
我已经尝试过 HtmlUnit,但是这个做得不好。它没有给我在浏览器中获得的内容。
真诚的,
奥戈福