假设我有一个名为 1.txt 和 2.txt 的文本文件。1.txt 包含
1,9,5
2,7,4
3,8,3
和 2.txt 包含
1,g,h
2,i,j
3,k,l
所以,我通过他们的键(第一列)加入了两者:
val one = sc.textFile("1.txt").map{
line => val parts = line.split(",",-1)
(parts(0),(parts(1),parts(2)))
}
val one = sc.textFile("2.txt").map{
line => val parts = line.split(",",-1)
(parts(0),(parts(1),parts(2)))
}
现在,如果我理解正确,我得到
(1, ( (9,5), (g,h) ))
(2, ( (7,4), (i,j) ))
(3, ( (8,3), (k,l) ))
现在,假设我需要总结1.txt第二列的所有值,
我该怎么做呢?
如何在加入的RDD中引用2.txt(即g,i,k)的第二列?
有没有很好的使用 RDD 的教程?我是一个火花(和斯卡拉)新手。