1

背景:

  • 2 个节点的 EMR 5.4 集群(主+从)。
  • 在设置期间提供了外部 Hive 元存储详细信息。
  • Hive 仓库已设置在 S3 上。
  • 我正在使用 spark 2.1 处理文件并创建临时表。
  • 登台表准备好后,我正在尝试使用 hive 将该数据加载到 hive 表中。

问题:通常在其他集群(AWS 之外)上运行大约 7-10 分钟的插入语句正在 EMR 集群上永久运行。我能够从 hive 查询由 spark 创建的暂存表。以下是我正在使用的语句:

CREATE TABLE Test1(
column1 string ,
column2 string,
column3 double)
PARTITIONED BY (Date_1 date)

INSERT OVERWRITE TABLE Test1 PARTITION(date_1)
SELECT
column1,
column2,
column3,
date_1
FROM Test1_stag

任何帮助,将不胜感激。

谢谢

4

0 回答 0