performance - 蜂巢分析查询需要很多时间

Question

为了加快对大表的 ETL 查询，我们analyze在晚上对这些表和日期列运行了许多查询。但是这些analyze对列的查询会占用大量内存和时间。我们正在使用 tez。有什么方法可以优化analyze查询，比如一些设置命令。

score 0 · Accepted Answer

hive.stats.autogather=true如果您使用插入覆盖加载表，则可以通过在插入覆盖查询期间进行设置来自动收集统计信息。

如果表是分区的并且分区正在增量加载，那么您只能分析最后一个分区。

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)]

对于 ORC 文件，可以指定hive.stats.gather.num.threads增加并行度。

1 回答 1