hadoop - OLAP 实时查询海量数据 - 选项

Question

我们有一个 1800 亿行和 100+ 列的 OLAP 表，Hive 中的卷接近 8TB。大多数列都是维度，而且我们也很少有指标列。我们想构建一个实时系统支持即席查询来运行仪表板应用程序，其中查询应该在 10 秒以下的延迟内执行。

我们现在正在寻找构建这样一个实时即席查询系统的选项，并且我们正在检查可能的选项，并且实际上正在努力选择一个正确的系统。我们正在看到

Presto可以用来直接查询 hdfs，但我们不确定它是否支持如此大容量的低延迟查询。

Cassandra，根据查询构建预聚合视图。

Druid，构建预聚合视图，看起来很有趣，但似乎没有任何企业支持。

在这里，我们实际上正在努力从这些组件中做出选择，而且我们不确定是否错过了可能适合此要求的任何其他相关工具。

我们正在寻找可以与 HDFS 紧密交互的工具/数据库，如果它对大容量的读取性能良好，我们也可以考虑任何其他工具。

我恳请您帮助指导我选择组件，如果我需要了解任何其他工具，请给我建议。

score 1 · Accepted Answer

嗨，您可以在这里看到https://cwiki.apache.org/confluence/display/Hive/Druid+Integration druid 正在与 Hive 紧密集成，这将能够完全支持您的用例，其中一些数据可以是从像 druid 这样的快速数据存储中查询，具有复杂连接的重量级查询可以转到 Hive。另请注意，从上面列出的解决方案中，只有 druid 具有集成 kafka、storm、flink rabitMQ 的强大（亚秒延迟）实时摄取 Firehose，并且不胜枚举......从支持的角度来看，druid 有一个非常活跃的开源社区加上它被数百家公司使用，包括像 Yahoo NetFlix 这样的大公司......此外，至少有 2 家公司将提供企业支持，即 Hortonworks 和 Imply。

hadoop - OLAP 实时查询海量数据 - 选项

1 回答 1

Related

Reference