1

我正在尝试将文件从 S3 复制到我在 Amazon EC2 上的 hadoop HDFS。

我正在使用的命令是:

bin/hadoop distcp s3://<awsAccessKeyId>:<awsSecretAccessKey>@<bucket_name>/f1 hdfs://user/root/
  • f1 是文件名
  • 我也将其更改为 s3n 以查看它是否有效,但它没有。
  • 我用 %2F 替换了我的秘密访问密钥中的正斜杠

我得到的错误是:SignatureDoesNotMatch

org.jets3t.service.S3ServiceException: S3 GET failed for '/%2Ff1'

<Message>The request signature we calculated does not match the signature you provided. Check your key and signing method.</Message>

<StringToSignBytes>...</StringToSignBytes>

<RequestId>...</RequestId>

<HostId>..</HostId>

<SignatureProvided>NsefW5en6P728cc9llkFIk6yGc4=\
    </SignatureProvided>

<StringToSign>GETMon, 05 Aug 2013 15:28:21 GMT/<bucket_name>/%2Ff1</StringToSign>

<AWSAccessKeyId><MY_ACCESS_ID><\ /AWSAccessKeyId></Error>

我只有一个 AWS 访问密钥 ID 和密钥。我检查了我的 AWS 账户,它们是一样的。我使用相同的 AWS 访问密钥和密钥来登录我的 EC2 集群。我也尝试过使用 core-site.xml 但这也没有帮助。

谢谢, 拉吉夫

4

2 回答 2

1

重新生成我的 AWS 密钥和秘密,这样我的秘密中没有正斜杠对我有用。参考:https ://issues.apache.org/jira/browse/HADOOP-3733

于 2013-08-05T21:11:30.243 回答
1

重新生成对我有用的密钥的替代方法是在运行 distcp 时使用 -Dfs.s3n.awsAccessKeyId= -Dfs.s3n.awsSecretAccessKey= 标志。

示例:hadoop distcp -Dfs.s3n.awsAccessKeyId= -Dfs.s3n.awsSecretAccessKey= s3n://path/to/log/dir hdfs://hdfs-node:8020/logs/

注意 s3n 的使用,它有 5GB 文件限制:Difference between Amazon S3 and S3n in Hadoop

编辑:不要对秘密访问密钥进行 url 编码,因此斜杠“/”和加号“+”应该按原样传递!

于 2014-08-19T00:19:57.053 回答