1

有什么好的解决方案或我可以在 GAE 上使用的无头浏览器吗?我在 GAE 上开发一个应用程序,该应用程序将读取一些网页,解析它们,并对它们进行一些统计。这里有讨论,让 HTMLUnit 在 GAE 上工作,但我不确定它是否能正常工作。

4

1 回答 1

1

如果您可以只获取 HTML(而不是执行 Javascript),jsoup.org可能值得一看:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

(示例代码无耻地从 jsoup 复制)

于 2013-06-26T14:44:41.893 回答