我想运行一个 MapReduce 作业,我想从给定文件中扫描多个列,并为每列的每个不同值分配一个唯一 ID(索引号)。主要挑战是在不同节点或 Reducer 的不同实例上遇到的相同值共享相同的 ID。
目前,我正在使用 zookeeper 来共享唯一 ID,但这会对性能产生影响。我什至将信息保存在减速器级别的本地缓存中,以避免多次访问 Zookeeper 以获得相同的值。我想探索是否有其他更好的机制来做同样的事情。
我想运行一个 MapReduce 作业,我想从给定文件中扫描多个列,并为每列的每个不同值分配一个唯一 ID(索引号)。主要挑战是在不同节点或 Reducer 的不同实例上遇到的相同值共享相同的 ID。
目前,我正在使用 zookeeper 来共享唯一 ID,但这会对性能产生影响。我什至将信息保存在减速器级别的本地缓存中,以避免多次访问 Zookeeper 以获得相同的值。我想探索是否有其他更好的机制来做同样的事情。