scala - Spark查询在同类数据上的性能差异

翻译自：https://stackoverflow.com/questions/62391424 2020-06-15T15:17:44.310

38 次

我是 Spark 的新手，所以我正在尝试这样的东西

  val values1= sparkSession.range(1,1000000)
  val values2= sparkSession.range(1,1000000)
  val values3= sparkSession.range(0,100000,2)
  val values4= sparkSession.range(0,100000,2)

  private val frame1: DataFrame = values1.join(values3,"id")
  frame1.count()
  private val frame3: DataFrame = values2.join(values4,"id")
  frame3.count()

我的问题是，尽管我使用不同的数据（内容可能相同），但为什么后面的任务花费的时间如此之少。?

scala - Spark查询在同类数据上的性能差异

0 回答 0

Related

Reference