10

我如何访问位于其他人拥有的 S3 的以下文件夹中的文件

s3n://elasticmapreduce/samples/wordcount/input

4

4 回答 4

5

s3n://elasticmapreduce/samples/wordcount/input 中的文件是公开的,并且作为 Amazon 的输入提供给示例字数统计 Hadoop 程序。获取它们的最佳方法是

  1. 从 Amazon Web Services 控制台启动一个新的 Amazon Elastic MapReduce 作业流程(不管是哪一个),并确保您使用 Keep Alive 选项保持作业处于活动状态
  2. EC2 机器启动后,从 Amazon Web Services 控制台找到 EC2 上的实例
  3. 例如,使用 hadoop 用户 ssh 到正在运行的 EC2 实例之一 ssh -i keypair.pem hadoop@ec2-IPADDRESS.compute-1.amazonaws.com
  4. 获取你需要的文件,使用hadoop dfs -copyToLocal s3://elasticmapreduce/samples/wordcount/input/0002 .
  5. 将文件 sftp 到本地系统
于 2013-03-02T06:05:32.447 回答
4

您可以在此处访问 wordSplitter.py:

https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/wordSplitter.py

您可以在此处访问输入文件:

https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0012
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0011
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0010
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0009
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0008
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0007
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0006
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0005
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0004
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0003
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0002
https://elasticmapreduce.s3.amazonaws.com/samples/wordcount/input/0001
于 2014-07-27T02:22:12.063 回答
3

文件夹的所有者(很可能是文件夹中的文件)必须让匿名读者可以访问它。如果是这种情况, s3n://x/y... 将被翻译为 http://s3.amazonaws.com/x/y ... 或 http://x.s3.amazonaws.com/y。 ..

x 是存储桶的名称。y... 是桶内的路径。

如果您想确保文件存在,例如,如果您怀疑名称拼写错误,您可以在浏览器中打开 http://s3.amazonaws.com/x ,您将看到描述“文件”的 XML,即 S3对象,可用。试试这个: http ://s3.amazonaws.com/elasticmapreduce

我试过这个,似乎你想要的路径不是公开的。AWS EBS 文档在“入门”示例之一中引用了 s3://elasticmapreduce/samples/wordcount/input。但是 s3 与 s3n 不同,因此输入可能对 EMR 可用,但对 HTTP 访问不可用。

于 2012-08-30T12:23:14.460 回答
3

在 Amazon S3 中,没有文件夹的概念,存储桶只是对象的平面集合。但是您可以使用以下 URL 在浏览器中列出您感兴趣的所有文件: s3.amazonaws.com/elasticmapreduce ?prefix=samples/wordcount/input/

然后您可以通过指定全名来下载它们,例如 s3.amazonaws.com/elasticmapreduce/samples/wordcount/input/0001

于 2014-11-04T09:03:03.827 回答