我在 python 中使用 SparkSQL。我创建了一个分区表(大约数百个分区),使用 hiveContext 将其存储到 Hive 内部表中。Hive 仓库位于 S3。
当我简单地执行“df = hiveContext.table(“mytable”)。第一次遍历所有分区需要一分钟。我认为元存储存储了所有元数据。为什么 spark 仍然需要遍历每个分区分区?是否可以避免这一步,让我的启动速度更快?
我在 python 中使用 SparkSQL。我创建了一个分区表(大约数百个分区),使用 hiveContext 将其存储到 Hive 内部表中。Hive 仓库位于 S3。
当我简单地执行“df = hiveContext.table(“mytable”)。第一次遍历所有分区需要一分钟。我认为元存储存储了所有元数据。为什么 spark 仍然需要遍历每个分区分区?是否可以避免这一步,让我的启动速度更快?