我希望在 Spark 2.2 中生成一个解释/执行计划,并对数据帧进行一些操作。这里的目标是在我开始工作并消耗集群资源之前确保分区修剪按预期进行。我在这里尝试了 Spark 文档搜索和 SO 搜索,但找不到适合我情况的语法。
这是一个按预期工作的简单示例:
scala> List(1, 2, 3, 4).toDF.explain
== Physical Plan ==
LocalTableScan [value#42]
这是一个未按预期工作但希望开始工作的示例:
scala> List(1, 2, 3, 4).toDF.count.explain
<console>:24: error: value explain is not a member of Long
List(1, 2, 3, 4).toDF.count.explain
^
这是一个更详细的示例,以进一步展示我希望通过解释计划确认的分区修剪的最终目标。
val newDf = spark.read.parquet(df).filter(s"start >= ${startDt}").filter(s"start <= ${endDt}")
提前感谢您的任何想法/反馈。