0

我正在使用 HDP 2.6.4,更具体地说是 Hive 1.2.1 和 TEZ 0.7.0,Spark 2.2.0。

我的任务很简单。以 ORC 文件格式存储数据,然后使用 Spark 处理数据。为了实现这一点,我正在这样做:

  1. 通过 HiveQL 创建 Hive 表
  2. 使用 Spark.SQL("select ... from ...") 将数据加载到数据框中
  3. 针对数据框进行处理

我的问题是: 1. Hive 在幕后的角色是什么?2. 是否可以跳过 Hive?

4

1 回答 1

0

您可以跳过 Hive 并使用 SparkSQL 运行步骤 1 中的命令

在您的情况下,Hive 正在为您的数据定义一个模式,并为您提供一个查询层供 Spark 和外部客户端进行通信

否则,spark.orc存在用于直接在文件系统上读取和写入数据帧

于 2018-07-24T13:23:57.737 回答