0

我在 EMR 集群上运行 Spark 作业。EMR 使用 AWS Glue 作为 Hive 元存储。作业通过 EMRFS 以 parquet 格式将数据写入 S3。我在SparkSession#table方法的帮助下使用 Spark SQL 读取数据帧。

是否可以使用 AWS Glue 配置Spark 的基于成本的优化器(CBO)?

AFAIK,Spark CBO 在元存储中存储表级统计信息。它适用于 Hive,但不适用于 Spark 默认元存储(嵌入式 Derby)。所以我的困惑是基于 CBO 是否可以使用 Glue 元存储的问题,如果它已经使用 Glue 作为 Spark SQL 的元存储。我想答案是肯定的,但仍然不确定。

4

1 回答 1

1

不幸的是,它不受支持。

不支持 Hive 中基于成本的优化。不支持将 hive.cbo.enable 的值更改为 true。

参考:https ://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-glue.html

于 2019-11-05T06:46:10.083 回答