我们有一个 1800 亿行和 100+ 列的 OLAP 表,Hive 中的卷接近 8TB。大多数列都是维度,而且我们也很少有指标列。我们想构建一个实时系统支持即席查询来运行仪表板应用程序,其中查询应该在 10 秒以下的延迟内执行。
我们现在正在寻找构建这样一个实时即席查询系统的选项,并且我们正在检查可能的选项,并且实际上正在努力选择一个正确的系统。我们正在看到
Presto可以用来直接查询 hdfs,但我们不确定它是否支持如此大容量的低延迟查询。
Cassandra,根据查询构建预聚合视图。
Druid,构建预聚合视图,看起来很有趣,但似乎没有任何企业支持。
在这里,我们实际上正在努力从这些组件中做出选择,而且我们不确定是否错过了可能适合此要求的任何其他相关工具。
我们正在寻找可以与 HDFS 紧密交互的工具/数据库,如果它对大容量的读取性能良好,我们也可以考虑任何其他工具。
我恳请您帮助指导我选择组件,如果我需要了解任何其他工具,请给我建议。