我如何访问位于其他人拥有的 S3 的以下文件夹中的文件
s3n://elasticmapreduce/samples/wordcount/input
我如何访问位于其他人拥有的 S3 的以下文件夹中的文件
s3n://elasticmapreduce/samples/wordcount/input
s3n://elasticmapreduce/samples/wordcount/input 中的文件是公开的,并且作为 Amazon 的输入提供给示例字数统计 Hadoop 程序。获取它们的最佳方法是
ssh -i keypair.pem hadoop@ec2-IPADDRESS.compute-1.amazonaws.com
hadoop dfs -copyToLocal s3://elasticmapreduce/samples/wordcount/input/0002 .
您可以在此处访问 wordSplitter.py:
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/wordSplitter.py
您可以在此处访问输入文件:
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0012
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0011
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0010
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0009
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0008
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0007
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0006
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0005
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0004
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0003
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0002
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0001
文件夹的所有者(很可能是文件夹中的文件)必须让匿名读者可以访问它。如果是这种情况, s3n://x/y... 将被翻译为 http://s3.amazonaws.com/x/y ... 或 http://x.s3.amazonaws.com/y。 ..
x 是存储桶的名称。y... 是桶内的路径。
如果您想确保文件存在,例如,如果您怀疑名称拼写错误,您可以在浏览器中打开 http://s3.amazonaws.com/x ,您将看到描述“文件”的 XML,即 S3对象,可用。试试这个: http ://s3.amazonaws.com/elasticmapreduce
我试过这个,似乎你想要的路径不是公开的。AWS EBS 文档在“入门”示例之一中引用了 s3://elasticmapreduce/samples/wordcount/input。但是 s3 与 s3n 不同,因此输入可能对 EMR 可用,但对 HTTP 访问不可用。
在 Amazon S3 中,没有文件夹的概念,存储桶只是对象的平面集合。但是您可以使用以下 URL 在浏览器中列出您感兴趣的所有文件: s3.amazonaws.com/elasticmapreduce ?prefix=samples/wordcount/input/
然后您可以通过指定全名来下载它们,例如 s3.amazonaws.com/elasticmapreduce/samples/wordcount/input/0001