我正在寻找一种快速有效的方法来填充共现矩阵(可以这么说)。这是我正在使用的数据示例:
col1 col2
a e
a f
a e
b f
c g
a e
d f
a e
a g
b e
c e
我想要一个以下形式的矩阵:
... e... f... g
a
b
c
d
以及与频率相关的相应条目。
例如,矩阵中的元素 (3,1) 将对应于 (c,e) 的共现频率,并且应该具有 1 的值,而 (1,1) 的元素应该具有对应于 3 的值 3数据集中(a,e)的条目。
我目前正在使用两个 for 循环单独计算项目,计算矩阵需要很长时间(实际数据大约有一百万行)。