1

我正在对巨大的网络日志进行共现分析。我已经计算了每个项目的发生时间,以及每对<item1, item2>使用 hadoop 的同时发生时间。

现在,我想为一对计算一些相关性度量<item1,item2>,例如n_12/(n_1*n_2),其中n表示项目或项目对的出现或同时出现时间。我将数据安排为:

key: item1
value: [(item1, n_1) (item2, n_12) ... (itemk, n_1k)]

我想知道n_2, ..., n_k在处理 key-value 时我怎么知道item1

谢谢您的帮助。

4

1 回答 1

2

你的意思是你需要在每个映射器中访问一个特定的字典?您可以使用 hadoop 的“分布式缓存”功能。这适用于较小的字典。字典能有多大?如果它以 GB 为单位,您可能不得不求助于减少侧连接。

于 2013-03-08T09:44:20.870 回答