我在 Hadoop 中有一个非常具体的问题。
我有两个文件userlist和 *raw_data*。现在 raw_data 是一个相当大的文件,而 userlist 比另一个文件要小。
我必须首先确定映射器的数量,并且我的用户列表必须分解为等于映射器数量的部分。稍后它必须被加载到分布式缓存中,它必须与用户列表进行比较并执行一些分析并将其写入减速器。
请建议。
谢谢你。
我在 Hadoop 中有一个非常具体的问题。
我有两个文件userlist和 *raw_data*。现在 raw_data 是一个相当大的文件,而 userlist 比另一个文件要小。
我必须首先确定映射器的数量,并且我的用户列表必须分解为等于映射器数量的部分。稍后它必须被加载到分布式缓存中,它必须与用户列表进行比较并执行一些分析并将其写入减速器。
请建议。
谢谢你。