facebook - 触发在 Facebook 时间线上加载内容的事件

Question

我正在研究 Apache Nutch 修改项目。我们已经将 Nutch 的原始模块替换为我们使用 HtmlUnit 构建的模块。我需要下载整个 Facebook 用户站点（例如http://www.facebook.com/profile.php?id=100002517096832），这将使用我们自己的解析器进行解析。不幸的是，Facebook 正在使用名为 BigPipe 的机制（http://www.facebook.com/note.php?note_id=389414033919）。这就是为什么大多数当前网站都隐藏在<.!-- -->标签中的原因。通常当我们向下滚动 Facebook 页面时，每次我们即将到达页面底部时，都会打开新内容。我尝试使用 Javascript 滚动我的htmlPage(HtmlPage对象来自HtmlUnit项目），但最后我意识到滚动不会触发在 Facebook 用户网站上加载新内容。

如何检查页面上的哪些事件触发在当前 Facebook 页面上加载内容？也许我应该从不同的方面解决问题，例如尝试自己提取 BigPipe “事物”？你有没有这样做过？

score 0 · Accepted Answer

在处理你的问题之前......你想在那里建立什么样的项目？

由于 Apache Nutch 是一个开源网络搜索软件，我认为您正在尝试构建某种搜索引擎，它会抓取 Facebook 用户配置文件/提要以获取数据并使其可在某些第三方网站上搜索？

好吧，那将违反Facebook 平台政策：

一、特点和功能

12.未经我们书面许可，您不得在任何搜索引擎或目录中包含从我们处获得的数据。

那么，你有书面许可吗？

facebook - 触发在 Facebook 时间线上加载内容的事件

1 回答 1

Related

Reference