在我们的项目中,我们使用AWS Glue Catalog
将数据存储S3
为Parquet
文件的表格。我们应用转换 (ETL)Spark-SQL
从这些表中读取数据并通过在每一步创建多个临时视图来派生最终结果集。那么,我们如何收集这些表上的统计信息,以便 Spark-SQL 使用这些统计信息来生成更好的计划?我知道在 Hive 中我们可以使用ANALYZE TABLE mytable COLLECT STATISTICS;
命令来收集统计信息。但是,当我对 Glue Catalog 表尝试相同的命令时,它会引发错误 -Can not create path from an empty string.
谁能告诉我如何收集这些粘合表上的统计信息?
示例表 DDL:
create table mydatabase.mytable
(
empid integer,
emp_name varchar(50),
emp_age varchar(10)
)
STORED AS PARQUET
Location 'S3://some_path/somefolder';
PS:请忽略 DDL 中的语法错误。如果需要其他信息,请告诉我