0

我今天刚刚在我们的服务器上安装了 Presto(版本 0.57),并且在从日志中执行 select count(*) 时;一张只有 6.4 亿条记录 (~64GB) 的表需要超过 17 分钟。

现在我的印象是这对于 presto 来说太慢了,但我不确定。

一些信息:

Hive 和 Presto 都已使用其文档中的默认配置进行安装。

Hive 表是一个外部表,大约有 24 列,其中大部分是 String,其中 3 列是 Array,文件存储为 Textfile(Hive 抱怨 RCFile 与我的文件出于某种原因)。

该表将主要用于分组和计数操作。

您是否有任何提高性能的技巧,或者对于一个简单的表计数(*),目标查询时间应该是多少?

干杯

4

1 回答 1

1

你应该用 RCFile 解决你的问题。使用 RCFile 将显着提高性能(开发人员说 x2 - x4 符合我的经验)。尝试使用CREATE TABLE <new rcfile table name> AS SELECT * FROM <old textfile table name>;Presto 进行转换。(确保磁盘上有足够的空间。)

于 2014-07-11T14:47:10.590 回答