我已经下载了我的 Twitter 档案,我正在尝试对我与谁交谈最多的人进行一些分析。
Tweets CSV 列如下所示:
tweet_id,in_reply_to_status_id,in_reply_to_user_id,retweeted_status_id,retweeted_status_user_id,timestamp,source
我使用 read_csv() 将 tweets.csv 文件导入到名为“indata”的数据框中。
然后,为了获取推文中提到的所有@handles 的列表,我使用了以下内容:
handles = indata['text'].str.findall('@[a-zA-Z0-9_-]*')
结果:
timestamp
...
2013-04-12 11:24:27 [@danbarker]
2013-04-12 11:22:32 [@SeekTom]
2013-04-12 10:50:45 [@33Digital, @HotwirePR, @kobygeddes, @]
2013-04-12 08:00:03 [@mccandelish]
2013-04-12 07:59:01 [@Mumbrella]
...
Name: text, dtype: object
我想做的是按个人句柄和日期分组,以显示多年来我与谁交谈最多的人数。
有什么建议么?