假设我们从alluxio内存创建一个RDD
rdd1 = sc.textFile("alluxio://.../file1.txt")
rdd2 = rdd1.map(...)
是否rdd2
驻留在堆上alluxio
或spark
堆上。
像(alluxio 上的两个pairRDD)这样的操作也会
pairRDD1.join(pairRDD2)
在alluxio 或spark 堆上创建一个新的RDD。
第二个问题的原因是我需要在alluxio上加入2个大型RDD。连接会使用alluxio的内存还是RDD会被拉入火花内存以进行连接(以及生成的RDD将驻留在哪里)。