hadoop - Apache Spark 上的 AMPLab Shark

Question

根据文档，

“Apache Spark 是用于大规模数据处理的快速通用引擎。”

“Shark 是用于 Hadoop 数据的开源分布式 SQL 查询引擎。”

Shark 使用 Spark 作为依赖项。

我的问题是，如果我们使用 Shark 对分析查询进行快速响应，Spark 是否只是将 HiveQL 解析为 Spark 作业，或者有什么好处？

score 3 · Accepted Answer

是的，Shark 使用与 Hive 相同的想法，但将 HiveQL 转换为 Spark 作业而不是 MapReduce 作业。请阅读本文档的第 13-14 页，了解这两者之间的架构差异。

1 回答 1