我知道这个问题在几年前就被问过了,但我仍然想知道使用 SparkSQL / HiveContext 的真正目的。
Spark 方法提供了一种比内置 MapReduce 更通用的分布式方式。
我读了很多文章声称 MR 方式已经死了,Spark 是最好的(我知道我可以通过 Spark 实现 MR 方法)。
当推荐使用 HiveContext 查询数据时,我有点困惑。
实际上,从 SparkSQL/HiveContext 运行查询并不意味着运行 MR 作业吗?不是回到主要问题吗?如果我不需要将查询结果封装在更复杂的代码中,TEZ 还不够吗?
我错了吗(我确定我是:-))?