我有两个数据集:
Dataset1:
Emp1 Emp2 Salary
Dataset2
Emp add1 add2 add3
Dataset 2 中的数据由 dataset1 中 Emp1 或 Emp2 中存在的所有员工组成。
生成的数据集需要有雇员 emp1 和 emp2 的每一行 Dataset1 和 add1 add2 add3 变量。
Dataset3
Emp1 Emp2 add1(emp1) add2(emp1) add3(emp1) add1(emp2) add2(emp2) add3(emp2)
它基本上是对 2 个数据集的合并,但是当我尝试从第一个数据集中获取键时,我可以在一列中获取 Emp1 Emp2 并且可以在另一列中获取 Emp1 Emp3。由于键变得混乱,我如何使用 map reduce 来完成此操作?