hadoop - 如何在 Hadoop map-reduce 程序的每个映射器中全局访问一个巨大的字典？

Question

我正在对巨大的网络日志进行共现分析。我已经计算了每个项目的发生时间，以及每对<item1, item2>使用 hadoop 的同时发生时间。

现在，我想为一对计算一些相关性度量<item1,item2>，例如n_12/(n_1*n_2)，其中n表示项目或项目对的出现或同时出现时间。我将数据安排为：

key: item1
value: [(item1, n_1) (item2, n_12) ... (itemk, n_1k)]

我想知道n_2, ..., n_k在处理 key-value 时我怎么知道item1？

谢谢您的帮助。

score 2 · Accepted Answer

你的意思是你需要在每个映射器中访问一个特定的字典？您可以使用 hadoop 的“分布式缓存”功能。这适用于较小的字典。字典能有多大？如果它以 GB 为单位，您可能不得不求助于减少侧连接。

1 回答 1