hadoop - 在 Hadoop 中组合两个不同的文件

Question

我在 Hadoop 中有一个非常具体的问题。

我有两个文件userlist和 *raw_data*。现在 raw_data 是一个相当大的文件，而 userlist 比另一个文件要小。

我必须首先确定映射器的数量，并且我的用户列表必须分解为等于映射器数量的部分。稍后它必须被加载到分布式缓存中，它必须与用户列表进行比较并执行一些分析并将其写入减速器。

请建议。

谢谢你。

score 0 · Accepted Answer

我不明白您为什么要对用户列表文件进行分区。如果它很小，则将整个用户列表文件加载到分布式缓存中。然后在map类的setup方法中，每个mapper都可以访问整个userlist文件。此外，您可以在设置方法中找出映射器的数量并根据需要对其进行分区。

1 回答 1