apache-spark - spark sql over hive的目的是什么？

Question

我知道这个问题在几年前就被问过了，但我仍然想知道使用 SparkSQL / HiveContext 的真正目的。

Spark 方法提供了一种比内置 MapReduce 更通用的分布式方式。

我读了很多文章声称 MR 方式已经死了，Spark 是最好的（我知道我可以通过 Spark 实现 MR 方法）。

当推荐使用 HiveContext 查询数据时，我有点困惑。

实际上，从 SparkSQL/HiveContext 运行查询并不意味着运行 MR 作业吗？不是回到主要问题吗？如果我不需要将查询结果封装在更复杂的代码中，TEZ 还不够吗？

我错了吗（我确定我是:-)）？

score 1 · Accepted Answer

实际上，从 SparkSQL/HiveContext 运行查询并不意味着运行 MR 作业吗？

它不是。事实上，使用HiveContext或SparkSession与“Hive 支持”一起使用并不意味着与 Hive 有任何联系，除了使用 Hive 元存储。这种方法被许多其他系统使用，包括 ETL 解决方案和数据库。

最后：

1 回答 1