0

如何在将一个文件的数据加入到 spark 中的另一个文件之前基于一个变量汇总一个文件的数据?我需要加入这两个文件,这样该列就不应该有任何重复的键。示例:一个文件的数据

name,country,marks,score
a,India,12,11
b,Australia,10,9
a,England,12,10
a,America,11,18
b,India,16,12
c,America,17,22

第二个文件的数据

name2,City,ID
a,Delhi,we1
b,Bangalore,we2
a,Gurgaon,we1
a,Mumbai,we3
c,Delhi,we4

滚动第一个文件后,它应该像

name,country,marks,score
a,India England America,12 12 11, 11 10 18
b,Australia India,10 16, 9 12 
c,America,17,22

滚动第二个文件后,它应该像

a, Delhi Gurgaon Mumbai,we1 we1 we3
b,Bangalore, we2
c,Delhi ,we4

在滚动这些文件之后,我想在 Spark 中进行左连接、右连接和其他类型的连接。

4

0 回答 0