4

主要问题:Twitter 的速率限制是否允许我进行必要的数据挖掘,以在大约 60 万用户之间构建一个包含所有有向边的完整社交网络图?

这是想法:

网络中的边/联系/关系将是追随者/被追随关系。

从大约 600 名 Twitter 用户的特定列表开始,选择这些用户是因为他们都来自一个大城市的所有新闻媒体。

收集所有 600 个用户的所有关注者和朋友(他们关注的人)。这些用户的平均关注者人数可能为每人 2,000 人。他们可能有平均 500 个朋友(他们关注的人)。

由于这 600 人的这些追随者都在同一个城市,因此预计这些追随者中的许多人将是关注这 600 人的同一用户。所以让我们粗略估计一下,这 600 个用户总共有大约 600,000 个关注者和朋友。所以这将是一个有 600,600 个 Twitter 用户的子图/网络。

因此,一旦我收集了所有这 600 人的所有 600,000 追随者和朋友,我希望能够构建所有这 600,600 人和他们的追随者的社交网络。这将要求我至少能够在这 600,600 名用户中找到所有有向边(无论这 600,600 名用户中的每一个是否相互关注)。有了 Twitter 速率限制,这种数据挖掘是否可行?

4

2 回答 2

1

我将以相反的顺序回答这些问题,首先从大卫马克思开始:嗯,我确实可以访问一个非常强大的计算机研究中心,它拥有大量的存储容量,所以这应该不是问题。但是,我不知道该软件是否可以处理它。

很有可能我将不得不缩小项目规模,这没关系。我的想法是从一个更大的想法开始,弄清楚它可以有多大,然后相应地削减。

现在跟进 Anony-Mousse 的问题:我的部分问题是我不确定我是否正确解释了 Twitter 速率限制。我不确定是每 15 分钟 15 个请求,还是每 15 分钟 30 个请求。而且我认为 1 个请求将获得 5000 个关注者/朋友,因此如果限制为每 15 分钟 15 个请求,您大概可以每 15 分钟收集 75,000 个朋友或关注者。我还试图弄清楚是否有任何流程可以为任何类型的研究目的请求更高的速率限制。

这是他们列出限制的地方: https ://dev.twitter.com/docs/rate-limiting/1.1/limits

于 2013-06-11T05:50:34.657 回答
0

主要问题:Twitter 的速率限制是否允许我进行数据挖掘(...)

是的,这在技术上是可行的,但是如果您只使用一个 API 用户访问令牌,则需要很长时间。我的意思是这里可能超过 6 个月的不间断运行。

更准确地说:

  • 节点(推特用户)的提取可以非常快速地完成,因为您将使用users/lookupAPI 端点,它可以让您为每个请求提取 100 个节点,并且每 15 分钟窗口发出 180 个请求(您拥有的每个访问令牌)
  • 边缘的提取(用户之间的关注关系)是缓慢的部分,您将使用API 端点friends/idsfollowers/ids每 15 分钟限制为 15 次查询,并且允许您为每个请求的唯一用户提取最多 5000 个关注者的朋友。

您可以使用节点元数据(描述文本、位置、语言、时区)来执行一些有趣的分析,即使没有提取“图表”(关注每个人之间的关系)

解决此问题的方法是通过将提取分散到多个访问令牌中来并行化提取的子部分。只要您尊重受保护的帐户,我似乎就符合使用条款。

在任何情况下,您都应该过滤掉名人边缘的提取(您可能不想提取 hoosuite 的追随者,几乎有 600 万个)。

免责声明:在这里自我推销:如果您不想自己开发,我可以为您提取并为您提供图形文件,因为我在tribalytics提取 twitter 图形。(我在发布之前已经阅读了这个那个)。

我还试图弄清楚是否有任何流程可以为任何类型的研究目的请求更高的速率限制

正式地,没有更多的白名单应用程序具有更高的速率限制,就像以前版本的 twitter 的 API 一样。你可能仍然应该联系推特,看看他们是否可以帮助你,因为你的工作是为了学术目的。

很有可能我将不得不缩小项目规模,这没关系

我建议您尽可能减少 600 个用户的初始列表。只保留那些对您的主题非常重要且受众不太大的人。提取当地名人的图表将为您提供一个图表,其中包含许多与您要研究的人群完全无关的人。

于 2013-09-13T19:00:27.713 回答