我在 EMR 集群上运行 Spark 作业。EMR 使用 AWS Glue 作为 Hive 元存储。作业通过 EMRFS 以 parquet 格式将数据写入 S3。我在SparkSession#table方法的帮助下使用 Spark SQL 读取数据帧。
是否可以使用 AWS Glue 配置Spark 的基于成本的优化器(CBO)?
AFAIK,Spark CBO 在元存储中存储表级统计信息。它适用于 Hive,但不适用于 Spark 默认元存储(嵌入式 Derby)。所以我的困惑是基于 CBO 是否可以使用 Glue 元存储的问题,如果它已经使用 Glue 作为 Spark SQL 的元存储。我想答案是肯定的,但仍然不确定。