背景:
- 2 个节点的 EMR 5.4 集群(主+从)。
- 在设置期间提供了外部 Hive 元存储详细信息。
- Hive 仓库已设置在 S3 上。
- 我正在使用 spark 2.1 处理文件并创建临时表。
- 登台表准备好后,我正在尝试使用 hive 将该数据加载到 hive 表中。
问题:通常在其他集群(AWS 之外)上运行大约 7-10 分钟的插入语句正在 EMR 集群上永久运行。我能够从 hive 查询由 spark 创建的暂存表。以下是我正在使用的语句:
CREATE TABLE Test1(
column1 string ,
column2 string,
column3 double)
PARTITIONED BY (Date_1 date)
INSERT OVERWRITE TABLE Test1 PARTITION(date_1)
SELECT
column1,
column2,
column3,
date_1
FROM Test1_stag
任何帮助,将不胜感激。
谢谢