我是 Spark 的新手,所以我正在尝试这样的东西
val values1= sparkSession.range(1,1000000)
val values2= sparkSession.range(1,1000000)
val values3= sparkSession.range(0,100000,2)
val values4= sparkSession.range(0,100000,2)
private val frame1: DataFrame = values1.join(values3,"id")
frame1.count()
private val frame3: DataFrame = values2.join(values4,"id")
frame3.count()
我的问题是,尽管我使用不同的数据(内容可能相同),但为什么后面的任务花费的时间如此之少。?
