是否有任何性能基准(真正的)可以比较 Stinger、Impala 和 Drill?此外,这是首选 - 我的用例将主要针对 Hive 之上的临时交互式查询。谢谢。
2 回答
网站http://allegro.tech/fast-data-hackathon.html上有一些性能数据。
一般来说,我们看到 Drill 和 Impala 在交互式查询的性能上是相当的,而 Drill 的区别在于它能够在没有元数据定义的情况下进行查询,并且它易于使用 JSON 数据。
请注意,这些测试是在 Drill 上更旧的版本上进行的,例如 0.8/0.9(也没有针对数据局部性进行适当的配置)。现在 Drill 是 1.1,在 SQL(窗口函数等)和性能上有很多改进。
你不能做这样的基准测试,这是没有意义的,你永远不应该相信这样的基准测试。
一切都取决于您自己的数据,您有 JSON 文件吗?更喜欢钻。你要查询超过 1TB,首选 Hive 等等。
此外,您可以考虑文件格式、JSON、Kudu、Parquet 或 ORC。
然后是优化,Hive+Tez 似乎更适合并行查询,但对于单个查询非常慢。而 Impala 则相反(MapReduce 与 MassiveParrarelProcessing)。
此外,您要考虑硬件资源、磁盘 SSD 等。
我建议,从 Apache Drill + JSON 文件开始,然后尝试使用 Parquet 或 ORC 的 Apache Drill。
如果您需要帮助,请准确描述您拥有的(数据 + 硬件)和您想要的。