0

我正在研究 Apache Nutch 修改项目。我们已经将 Nutch 的原始模块替换为我们使用 HtmlUnit 构建的模块。我需要下载整个 Facebook 用户站点(例如http://www.facebook.com/profile.php?id=100002517096832),这将使用我们自己的解析器进行解析。不幸的是,Facebook 正在使用名为 BigPipe 的机制(http://www.facebook.com/note.php?note_id=389414033919)。这就是为什么大多数当前网站都隐藏在<.!-- -->标签中的原因。通常当我们向下滚动 Facebook 页面时,每次我们即将到达页面底部时,都会打开新内容。我尝试使用 Javascript 滚动我的htmlPage(HtmlPage对象来自HtmlUnit项目),但最后我意识到滚动不会触发在 Facebook 用户网站上加载新内容。

如何检查页面上的哪些事件触发在当前 Facebook 页面上加载内容?也许我应该从不同的方面解决问题,例如尝试自己提取 BigPipe “事物”?你有没有这样做过?

4

1 回答 1

0

在处理你的问题之前......你想在那里建立什么样的项目?

由于 Apache Nutch 是一个开源网络搜索软件,我认为您正在尝试构建某种搜索引擎,它会抓取 Facebook 用户配置文件/提要以获取数据并使其可在某些第三方网站上搜索?

好吧,那将违反Facebook 平台政策

一、特点和功能

12.未经我们书面许可,您不得在任何搜索引擎或目录中包含从我们处获得的数据。

那么,你有书面许可吗?

于 2012-09-18T14:58:12.127 回答