5

我已将制表符分隔的文件加载到 S3 中,该文件在存储桶下具有此类文件夹:bucket --> se --> y=2013 --> m=07 --> d=14 --> h=00

每个子文件夹都有 1 个文件,代表我每小时的流量。

然后,我创建了一个 EMR 工作流,以与 hive 交互模式运行。

当我登录到 master 并进入 hive 时,我运行以下命令:

CREATE EXTERNAL TABLE se (
id bigint,
oc_date timestamp)
partitioned by (y string, m string, d string, h string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION 's3://bi_data';

我收到此错误消息:

FAILED:元数据错误:java.lang.IllegalArgumentException:列出存储桶中的对象时必须指定存储桶名称参数

失败:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

有人可以帮忙吗?

更新 即使我尝试只使用字符串字段,我也会得到同样的错误。用字符串创建表:

CREATE EXTERNAL TABLE se (
id string,
oc_date string)
partitioned by (y string, m string, d string, h string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION 's3://bi_data';

蜂巢版本 0.8.1.8

4

1 回答 1

14

所以,解决方案是我有两个错误:

  1. 仅写入存储桶名称时,您应该在 S3 路径中添加一个斜杠。参考这里

  2. 下划线也是一个问题,存储桶名称应该符合 DNS。

希望我对此有所帮助。

于 2013-08-04T13:56:38.620 回答