1

我是 Spark 的新手,所以我正在尝试这样的东西

  val values1= sparkSession.range(1,1000000)
  val values2= sparkSession.range(1,1000000)
  val values3= sparkSession.range(0,100000,2)
  val values4= sparkSession.range(0,100000,2)

  private val frame1: DataFrame = values1.join(values3,"id")
  frame1.count()
  private val frame3: DataFrame = values2.join(values4,"id")
  frame3.count()

火花用户界面

我的问题是,尽管我使用不同的数据(内容可能相同),但为什么后面的任务花费的时间如此之少。?

4

0 回答 0