0

我们小组正在开展一个情绪分析研究项目。我们正在尝试使用 Twitter API 来收集推文。目标数据集涉及大量查询术语和过滤器。但是,由于我们每个人都有一个开发者帐户,我们想知道是否可以汇集 API 访问令牌以加速数据收集。例如,我们将创建一个应用程序,允许我们定义一个配置文件,其中包含我们的访问令牌列表,该应用程序将尝试使用这些访问令牌来搜索推文。这个应用程序将在我们的本地计算机上运行。由于该应用程序使用我们个人的访问令牌,我们相信我们实际上并没有绕过或更改任何 Twitter 限制,因为每个访问令牌都保留了记录。这种方法是否存在任何法律/技术问题?谢谢!=D

这是我们正在尝试做的伪代码:

1. define a list of search terms such as 'apple', 'banana' 
and 'oranges' (we have 100 of these search terms, we are okay 
with the 100 limit per tweet)

2. define a list of frequent emotional adjectives such as 'happy', 'sad', 'crazy', etc. (we have have 100 of these) using TF-IDF

3. get the product of the search terms and emotional adjectives, 
in total we have 10,000 query terms and we have computed
 through the rate limit rules that we would need at least 
55 runs of 15-minute sessions with 180 tweets per 15-minute. 
 55 * 15 = 825 minutes or ~14 hours to collect this amount of tweets. 

4. we were thinking of improving the data collection by 
pooling access tokens so that we can trim down the time 
of collection from 14 hours to ~4 hours, e.g. by dividing the query items into subsets and letting a specific access token work on a subset  

We were pushing for this since we just think it's efficient if it's possible and permitted since why not and it might help future researches as well?

问题是,我们这样做真的违反了任何 Twitter 规则或政策吗?通过为我们三个人每个人共享一个访问令牌并创建一个我们命名为研究项目克隆的应用程序,我们相信反过来我们也会失去一些东西,即我们完全控制的另一个应用程序的空间。

到目前为止,我在 Twitter 中找不到关于此的具体规则。我们担心的是,我们将发表一篇论文,并将发布我们将编程和用于文档的应用程序以及我们计划构建的应用程序。免责声明:由于 Twitter 对数据集有明确的规定,因此只会发布应用程序的源代码,而不是数据集。

4

1 回答 1

1

Twitter 开发者政策和协议绝对不允许这样做。

Twitter 开发者政策 5a:

请勿执行以下任何操作:将单个应用程序 API 密钥用于多个用例,或将多个应用程序 API 密钥用于同一用例。

随意通过开发者论坛直接与 Twitter 联系。StackOverflow 并不是这个问题的最佳选择,因为它不是专门的编码问题。

于 2019-08-27T13:14:10.050 回答