apache-spark - 使用 Glue + S3 的 Spark 基于成本的优化器

Question

我在 EMR 集群上运行 Spark 作业。EMR 使用 AWS Glue 作为 Hive 元存储。作业通过 EMRFS 以 parquet 格式将数据写入 S3。我在SparkSession#table方法的帮助下使用 Spark SQL 读取数据帧。

是否可以使用 AWS Glue 配置Spark 的基于成本的优化器(CBO)？

AFAIK，Spark CBO 在元存储中存储表级统计信息。它适用于 Hive，但不适用于 Spark 默认元存储（嵌入式 Derby）。所以我的困惑是基于 CBO 是否可以使用 Glue 元存储的问题，如果它已经使用 Glue 作为 Spark SQL 的元存储。我想答案是肯定的，但仍然不确定。

score 1 · Accepted Answer

不幸的是，它不受支持。

不支持 Hive 中基于成本的优化。不支持将 hive.cbo.enable 的值更改为 true。

1 回答 1