我今天刚刚在我们的服务器上安装了 Presto(版本 0.57),并且在从日志中执行 select count(*) 时;一张只有 6.4 亿条记录 (~64GB) 的表需要超过 17 分钟。
现在我的印象是这对于 presto 来说太慢了,但我不确定。
一些信息:
Hive 和 Presto 都已使用其文档中的默认配置进行安装。
Hive 表是一个外部表,大约有 24 列,其中大部分是 String,其中 3 列是 Array,文件存储为 Textfile(Hive 抱怨 RCFile 与我的文件出于某种原因)。
该表将主要用于分组和计数操作。
您是否有任何提高性能的技巧,或者对于一个简单的表计数(*),目标查询时间应该是多少?
干杯