我正在使用 HDP 2.6.4,更具体地说是 Hive 1.2.1 和 TEZ 0.7.0,Spark 2.2.0。
我的任务很简单。以 ORC 文件格式存储数据,然后使用 Spark 处理数据。为了实现这一点,我正在这样做:
- 通过 HiveQL 创建 Hive 表
- 使用 Spark.SQL("select ... from ...") 将数据加载到数据框中
- 针对数据框进行处理
我的问题是: 1. Hive 在幕后的角色是什么?2. 是否可以跳过 Hive?
我正在使用 HDP 2.6.4,更具体地说是 Hive 1.2.1 和 TEZ 0.7.0,Spark 2.2.0。
我的任务很简单。以 ORC 文件格式存储数据,然后使用 Spark 处理数据。为了实现这一点,我正在这样做:
我的问题是: 1. Hive 在幕后的角色是什么?2. 是否可以跳过 Hive?