Twitter 刚刚发布了数百万条与互联网巨魔农场“互联网研究机构”(IRA)相关的推文。
这些大型数据集包括 3,841 个隶属于 IRA 的账户,来自俄罗斯,以及 770 个其他账户,可能来自伊朗。它们包括超过 1000 万条推文和超过 200 万张图片、GIF、视频和 Periscope 广播,其中包括与这些活动相关的帐户最早的 Twitter 活动,可追溯到 2009 年。
BigQuery 中是否提供数据集?如何找到热门话题标签?
Twitter 刚刚发布了数百万条与互联网巨魔农场“互联网研究机构”(IRA)相关的推文。
这些大型数据集包括 3,841 个隶属于 IRA 的账户,来自俄罗斯,以及 770 个其他账户,可能来自伊朗。它们包括超过 1000 万条推文和超过 200 万张图片、GIF、视频和 Periscope 广播,其中包括与这些活动相关的帐户最早的 Twitter 活动,可追溯到 2009 年。
BigQuery 中是否提供数据集?如何找到热门话题标签?
调查员 Josh Russell 在 BigQuery 中分享了 Twitter 发布的数据集——现在您可以在其上编写查询。
热门推文(按其标签获得的转推数量)(英文):
#standardSQL
SELECT hashtag, SUM(retweets) total_retweets
, ARRAY_AGG(STRUCT(retweets, tweet_text) ORDER BY retweets DESC LIMIT 1) top_tweet
FROM (
SELECT REGEXP_EXTRACT_ALL(tweet_text, r'(?i)#[^ ,:\.\";\!]*') hashtags, tweet_text, retweet_count retweets
FROM `reddit-198411.IRAhashed.IRAhashed` a
WHERE tweet_language = 'en'
), UNNEST(hashtags) hashtag
WHERE ARRAY_LENGTH(hashtags)>0
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1000
对于其他语言,我将结果导出到 Google 表格并运行 GOOGLETRANSLATE() 函数:
SELECT hashtag, retweets, top_tweet.*
FROM (
SELECT hashtag, SUM(retweet_count) retweets
, ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
FROM (
SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
, retweet_count, tweet_text, tweet_language
FROM `reddit-198411.IRAhashed.IRAhashed`
WHERE LENGTH(hashtags)>2
AND tweet_language NOT IN ('en', 'und')
), UNNEST(hashtags) hashtag
GROUP BY 1
ORDER BY 2 DESC
LIMIT 500
)
我在/r/bigquery上留下了其他查询: