0

我在 Hadoop 中有一个非常具体的问题。

我有两个文件userlist和 *raw_data*。现在 raw_data 是一个相当大的文件,而 userlist 比另一个文件要小。

我必须首先确定映射器的数量,并且我的用户列表必须分解为等于映射器数量的部分。稍后它必须被加载到分布式缓存中,它必须与用户列表进行比较并执行一些分析并将其写入减速器。

请建议。

谢谢你。

4

1 回答 1

0

我不明白您为什么要对用户列表文件进行分区。如果它很小,则将整个用户列表文件加载到分布式缓存中。然后在map类的setup方法中,每个mapper都可以访问整个userlist文件。此外,您可以在设置方法中找出映射器的数量并根据需要对其进行分区。

于 2014-02-16T06:44:02.443 回答