我在 EMR 上使用带有临时集群的 Spark 2.2。我想使用火花分桶,我不关心 Hive(仅限 Spark 工作负载)。
我可以使用spark.sql.warehouse.dir
s3 存储桶来保存元存储信息以使它们不依赖于集群吗?
我还需要一个存放位置metastore_db
吗?
幕后发生了什么?此命令显示的存储信息在哪里:spark.catalog.listTables.show
?
我在 EMR 上使用带有临时集群的 Spark 2.2。我想使用火花分桶,我不关心 Hive(仅限 Spark 工作负载)。
我可以使用spark.sql.warehouse.dir
s3 存储桶来保存元存储信息以使它们不依赖于集群吗?
我还需要一个存放位置metastore_db
吗?
幕后发生了什么?此命令显示的存储信息在哪里:spark.catalog.listTables.show
?