我正在对巨大的网络日志进行共现分析。我已经计算了每个项目的发生时间,以及每对<item1, item2>
使用 hadoop 的同时发生时间。
现在,我想为一对计算一些相关性度量<item1,item2>
,例如n_12/(n_1*n_2)
,其中n
表示项目或项目对的出现或同时出现时间。我将数据安排为:
key: item1
value: [(item1, n_1) (item2, n_12) ... (itemk, n_1k)]
我想知道n_2, ..., n_k
在处理 key-value 时我怎么知道item1
?
谢谢您的帮助。