hadoop - Apache Drill的性能

Question

是否有任何性能基准（真正的）可以比较 Stinger、Impala 和 Drill？此外，这是首选 - 我的用例将主要针对 Hive 之上的临时交互式查询。谢谢。

score 5 · Accepted Answer

一般来说，我们看到 Drill 和 Impala 在交互式查询的性能上是相当的，而 Drill 的区别在于它能够在没有元数据定义的情况下进行查询，并且它易于使用 JSON 数据。

请注意，这些测试是在 Drill 上更旧的版本上进行的，例如 0.8/0.9（也没有针对数据局部性进行适当的配置）。现在 Drill 是 1.1，在 SQL（窗口函数等）和性能上有很多改进。

score 2 · Accepted Answer

你不能做这样的基准测试，这是没有意义的，你永远不应该相信这样的基准测试。

一切都取决于您自己的数据，您有 JSON 文件吗？更喜欢钻。你要查询超过 1TB，首选 Hive 等等。

此外，您可以考虑文件格式、JSON、Kudu、Parquet 或 ORC。

然后是优化，Hive+Tez 似乎更适合并行查询，但对于单个查询非常慢。而 Impala 则相反（MapReduce 与 MassiveParrarelProcessing）。

此外，您要考虑硬件资源、磁盘 SSD 等。

我建议，从 Apache Drill + JSON 文件开始，然后尝试使用 Parquet 或 ORC 的 Apache Drill。

如果您需要帮助，请准确描述您拥有的（数据 + 硬件）和您想要的。

2 回答 2