1

Twitter 刚刚发布了数百万条与互联网巨魔农场“互联网研究机构”(IRA)相关的推文。

这些大型数据集包括 3,841 个隶属于 IRA 的账户,来自俄罗斯,以及 770 个其他账户,可能来自伊朗。它们包括超过 1000 万条推文和超过 200 万张图片、GIF、视频和 Periscope 广播,其中包括与这些活动相关的帐户最早的 Twitter 活动,可追溯到 2009 年。

BigQuery 中是否提供数据集?如何找到热门话题标签?

4

1 回答 1

1

调查员 Josh Russell 在 BigQuery 中分享了 Twitter 发布的数据集——现在您可以在其上编写查询。

热门推文(按其标签获得的转推数量)(英文):

#standardSQL
SELECT hashtag, SUM(retweets) total_retweets
  , ARRAY_AGG(STRUCT(retweets, tweet_text) ORDER BY retweets DESC LIMIT 1) top_tweet
FROM (
  SELECT REGEXP_EXTRACT_ALL(tweet_text, r'(?i)#[^ ,:\.\";\!]*') hashtags, tweet_text, retweet_count retweets 
  FROM `reddit-198411.IRAhashed.IRAhashed` a 
  WHERE tweet_language  = 'en'
), UNNEST(hashtags) hashtag
WHERE ARRAY_LENGTH(hashtags)>0
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1000

在此处输入图像描述

对于其他语言,我将结果导出到 Google 表格并运行 GOOGLETRANSLATE() 函数:

SELECT hashtag, retweets, top_tweet.*
FROM (
  SELECT hashtag, SUM(retweet_count) retweets
    , ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
  FROM (
    SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
      , retweet_count, tweet_text, tweet_language   
    FROM `reddit-198411.IRAhashed.IRAhashed` 
    WHERE LENGTH(hashtags)>2
    AND tweet_language NOT IN ('en', 'und')
  ), UNNEST(hashtags) hashtag
  GROUP BY 1
  ORDER BY 2 DESC
  LIMIT 500
)

在此处输入图像描述

我在/r/bigquery上留下了其他查询:

于 2018-10-23T06:57:30.843 回答