1

我想解析用 GWT 编写的 HTML 页面的内容。我尝试使用 Jericho HTML 内容解析器对其进行解析,但问题是页面源没​​有内容。在对 GWT 页面进行了一些研究之后,我了解到 GWT 页面是用 JAVA 编写的,GWT 编译器从 java 代码创建了一个复杂的 js 页面结构,以在浏览器上显示 HTML 内容。

有没有办法可以解析这些类型的页面?

4

2 回答 2

1

就像 (m) 任何“单页 Web 应用程序”(包括 Twitter,它不是用 GWT 构建的)一样,您必须运行 JavaScript 代码,然后抓取 DOM。

这可以使用HtmlUnitPhantomJS或类似工具轻松完成(一切都是相对的) 。

于 2012-04-26T13:41:43.553 回答
1

如果代码被编译OBF - Obfuscated mode(代码通常以这种模式编译以供生产使用)将非常困难,因为JS创建的文件是非人类可读的。

链接可能有助于您更好地了解 GWT 编译器。

编辑

给你。这也可能会有所帮助。这里提到了如何De-obfuscate the Javascript

编辑2

GWT-Penetration-Testing-Toolset - 检查此工具。

于 2012-04-26T10:22:13.913 回答