陈述我的问题
1)我想将我们的 cdh hadoop 集群备份到 s3
2)我们有一个正在运行的 emr 集群
3)我正在尝试从 emr 集群运行 s3distcp,将 src 作为 cdh 远程集群的 hdfs URL,将目标作为 s3 。
出现以下错误:原因:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):权限被拒绝:user=mapred, access=RE AD_EXECUTE, inode="/tmp/hadoop-mapred/映射/分期“
以下是我在这里浏览文档后的问题
http://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html
1)这可行吗?我可以从 s3distcp 文档中看到可以给出任何 hdfs url。但我找不到任何关于它在外部集群情况下如何工作的文档。
2)我想知道在文档中提到的暂存目录(有人提到s3distcp在复制到s3之前将数据复制到这个目录)是在哪里创建的,即在远程集群或emr集群中。