apache-spark - 是否可以在没有 Hive 的情况下使用具有 ORC 文件格式的 Spark？

Question

我正在使用 HDP 2.6.4，更具体地说是 Hive 1.2.1 和 TEZ 0.7.0，Spark 2.2.0。

我的任务很简单。以 ORC 文件格式存储数据，然后使用 Spark 处理数据。为了实现这一点，我正在这样做：

我的问题是： 1. Hive 在幕后的角色是什么？2. 是否可以跳过 Hive？

score 0 · Accepted Answer

您可以跳过 Hive 并使用 SparkSQL 运行步骤 1 中的命令

在您的情况下，Hive 正在为您的数据定义一个模式，并为您提供一个查询层供 Spark 和外部客户端进行通信

否则，spark.orc存在用于直接在文件系统上读取和写入数据帧

1 回答 1