如何在将一个文件的数据加入到 spark 中的另一个文件之前基于一个变量汇总一个文件的数据?我需要加入这两个文件,这样该列就不应该有任何重复的键。示例:一个文件的数据
name,country,marks,score
a,India,12,11
b,Australia,10,9
a,England,12,10
a,America,11,18
b,India,16,12
c,America,17,22
第二个文件的数据
name2,City,ID
a,Delhi,we1
b,Bangalore,we2
a,Gurgaon,we1
a,Mumbai,we3
c,Delhi,we4
滚动第一个文件后,它应该像
name,country,marks,score
a,India England America,12 12 11, 11 10 18
b,Australia India,10 16, 9 12
c,America,17,22
滚动第二个文件后,它应该像
a, Delhi Gurgaon Mumbai,we1 we1 we3
b,Bangalore, we2
c,Delhi ,we4
在滚动这些文件之后,我想在 Spark 中进行左连接、右连接和其他类型的连接。