我正在使用 OpenRefine 将一些 Twitter 元数据格式化为边缘列表以供 Gephi 读取。如果我想研究用户提及关联或用户标签关联,它很容易工作。但是现在我想研究共同标签,那么标签在推文中共同出现的频率。
在 OpenRefine 中执行此操作(我不太了解)有点棘手,我需要一些帮助。我的数据在 csv 中,有两列:用户的用户名、推文中使用的逗号分隔的主题标签字符串。要使用 OpenRefine 获取用户标签边缘列表,我在标签列上使用“拆分多值单元格”,然后在用户列上使用“填充”(非常简单)。我不知道如何获取 hashtag-hashtag 边缘列表。我可以在主题标签列上使用“拆分多值单元格”来为推文中提到的每个主题标签获取一个新行。但是我如何“填充”这些行以便获得主题标签-主题标签共现的所有组合?
例子:
数据:
User Hashtags
Dario Data mining, R, OpenRefine
期望的结果:
Hashtag 1 Hashtag 2
Data mining R
Data mining OpenRefine
R OpenRefine