1

我很清楚这个话题已经被非常深入地讨论过(我一整天都阅读了很多)。

不过,FB 允许我为非商业、非公立研究型大学项目创建前端爬虫的可能性有多大?

我的爬虫应该反复查找数量非常有限的特定公共粉丝页面,并收集匿名数据,例如粉丝数量、状态更新及其喜欢的数量和评论数量。

我想展示的是媒体页面中的哪些主题是“喜欢”和讨论最多的,以及随着时间的推移如何发展。我知道 FB 的受限 TOS。感谢您对此的意见。

第二个问题涉及技术方法/授权:读取粉丝页面的粉丝数量、状态更新和每个人的点赞数——我什至可以将 API/OpenGraph 用于这样的爬虫吗?我认为要阅读页面墙,您需要不惜一切代价获得访问令牌,因此我想通过应用程序实现自动“爬虫”是不可能的(因为应用程序只对用户的操作做出反应,并且不能像 cron 作业一样行事) ?

如您所见,我对 FB 开发和逻辑还很陌生。非常感谢您的专业知识。

4

1 回答 1

0

如果您主要针对公共页面,那么您应该没问题。

您需要有一个 facebook 应用程序,然后您可以从您的程序中作为应用程序进行身份验证。您将获得一个应用令牌,您应该可以使用它来抓取公共页面数据。

如果您检查页面对象的文档,您将在表(字段和连接)中看到权限列中的大部分内容是“无访问令牌或用户 access_token”或“任何有效的 access_token 或用户 access_token”,如果你有应用令牌,你很好。

另外,我认为您会对此感兴趣,Page 对象具有“talking_about_count”字段。

所以,是的,你可以做到,至少大部分都可以。至于 TOS,由于所有这些都完全可以,并且直接来自他们的官方文档,所以没有问题。

于 2012-04-28T21:45:24.333 回答