我正在研究 Apache Nutch 修改项目。我们已经将 Nutch 的原始模块替换为我们使用 HtmlUnit 构建的模块。我需要下载整个 Facebook 用户站点(例如http://www.facebook.com/profile.php?id=100002517096832),这将使用我们自己的解析器进行解析。不幸的是,Facebook 正在使用名为 BigPipe 的机制(http://www.facebook.com/note.php?note_id=389414033919)。这就是为什么大多数当前网站都隐藏在<.!-- -->
标签中的原因。通常当我们向下滚动 Facebook 页面时,每次我们即将到达页面底部时,都会打开新内容。我尝试使用 Javascript 滚动我的htmlPage
(HtmlPage
对象来自HtmlUnit
项目),但最后我意识到滚动不会触发在 Facebook 用户网站上加载新内容。
如何检查页面上的哪些事件触发在当前 Facebook 页面上加载内容?也许我应该从不同的方面解决问题,例如尝试自己提取 BigPipe “事物”?你有没有这样做过?