0

我正在使用亚马逊数据管道中的 sqlActivity 将数据复制到我的 redshift 表中。
如果我指定一个像 part-00000.gz 这样的文件名,则脚本运行良好,但是当我指定通配符.gz 来选择目录中的所有文件时,我收到错误,通配符实际上被认为是文件名,因此它抱怨文件名 Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/ .gz 不存在

开始交易;创建临时表 ip_to_filename_staging_table(如 bens_analytics_ip_to_filename);

从 's3://er-hadoop/Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/*.gz' 凭证复制 ip_to_filename_staging_table 'aws_access_key_id=<>;aws_secret_access_key=<>' gzip 分隔符 '\t' COMPUPDATE OFF状态更新关闭;

使用 bens_analytics_ip_to_filename 从 ip_to_filename_staging_table 中删除(ip_to_filename_staging_table.day = bens_analytics_ip_to_filename.day 和 ip_to_filename_staging_table.ip = bens_analytics_ip_to_filename.ip 和 ip_to_filename_staging_table.filename = bens_analytics_ip_to_filename.filename);

插入bens_analytics_ip_to_filename select * from ip_to_filename_staging_table;

删除表 ip_to_filename_staging_table; 结束交易;

4

1 回答 1

0

当我使用像 's3://er-hadoop/Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/part' 这样的路径时,我发现它选择了所有 part-xxxxx.gz 文件

于 2015-02-21T00:10:39.343 回答