根据文档,
“Apache Spark 是用于大规模数据处理的快速通用引擎。”
“Shark 是用于 Hadoop 数据的开源分布式 SQL 查询引擎。”
Shark 使用 Spark 作为依赖项。
我的问题是,如果我们使用 Shark 对分析查询进行快速响应,Spark 是否只是将 HiveQL 解析为 Spark 作业,或者有什么好处?
根据文档,
“Apache Spark 是用于大规模数据处理的快速通用引擎。”
“Shark 是用于 Hadoop 数据的开源分布式 SQL 查询引擎。”
Shark 使用 Spark 作为依赖项。
我的问题是,如果我们使用 Shark 对分析查询进行快速响应,Spark 是否只是将 HiveQL 解析为 Spark 作业,或者有什么好处?
是的,Shark 使用与 Hive 相同的想法,但将 HiveQL 转换为 Spark 作业而不是 MapReduce 作业。请阅读本文档的第 13-14 页,了解这两者之间的架构差异。