“emr”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

201 浏览

hadoop - 支持 Amazon EMR 上的 Hadoop 1.0.1 作业

我已经使用 java 和 hadoop 1.0.1 开发了一些 MR 作业。但是，EMR 仅支持 Hadoop 0.20。是否可以在 EMR 上运行 Hadoop 1.0.1 作业，或者我是否必须降级我的库堆栈以符合 EMR hadoop 版本？

hadoop emr

2012-04-07T01:57:51.327

0 投票

1 回答

978 浏览

amazon-web-services - 运行 Amazon EMR 作业时出现“文件不存在”错误

我已经上传了我的数据 genotype1_large_ind_large.txt phenotype1_large_ind_large_1.txt

到 S3 系统，在 EMR UI 中，我设置如下参数

RunDear.run s3n://scalability/genotype1_large_ind_large.txt s3n://scalability/phenotype1_large_ind_large_1.txt s3n://scalability/output_1phe 33 10 4

在我的 RunDear.run 类中，我会将文件 genotype1_large_ind_large.txt 和 phenotype1_large_ind_large_1.txt 分发到缓存中

但是，运行 EMR 后，出现以下错误： java.io.FileNotFoundException: File does not exist: /genotype1_large_ind_large.txt

我想知道为什么文件名前面有斜杠'/'？如何使它工作？

我也尝试像下面这样使用，但我的程序会将 -cacheFile 作为参数，因此也不起作用，

RunDear.run -cacheFile s3n://scalability/genotype1_large_ind_large.txt#genotype.txt -cacheFile s3n://scalability/phenotype1_large_ind_large_1.txt#phenotype.txt s3n://scalability/output_1phe 33 280 4

2012-04-25T12:14:12.103

0 投票

1 回答

1045 浏览

azure - 对于 Hadoop，选择哪种数据存储，Amazon S3 还是 Azure Blob Store？

我正在处理一个 Hadoop 项目并在我的本地集群中生成大量数据。不久之后，我将使用基于云的 Hadoop 解决方案，因为与实际工作负载相比，我的 Hadoop 集群非常小，但是我现在无法选择我将使用哪一个，即基于 Windows Azure、EMR 或其他。我正在本地生成大量数据，并希望将这些数据存储到一些基于云的存储中，因为我稍后将很快将这些数据与 Hadoop 一起使用。

我正在寻找建议，以根据某人的经验决定选择哪个云存储。提前致谢。

azure hadoop amazon-web-services emr

user1355361

2012-05-07T23:22:48.273

0 投票

1 回答

1583 浏览

java - Amazon EMR：将 XML 或属性文件传递到 JAR

我一直在从单个 JAR 文件在 hadoop 集群上运行几个 map reduce 作业。JAR 的 Main 接受 XML 文件作为命令行参数。XML 文件包含每个作业的输入和输出路径（名称-值属性对），我使用它们来配置每个 mapreduce 作业。我可以像这样将路径加载到配置中

我现在正在尝试使用 Amazon 的 Elastic MapReduce 运行 JAR。我尝试将 XML 文件上传到 S3，但当然使用 FileInputStream 从 S3 加载路径数据不起作用（FileNotFound 异常）。

使用 EMR 时如何将 XML 文件传递到 JAR？

（我查看了引导操作，但据我所知，这是指定 hadoop 特定的配置）。

任何见解将不胜感激。谢谢。

java jar hadoop amazon-s3 emr

2012-05-08T21:31:25.687

0 投票

3 回答

1002 浏览

amazon-emr - 使用 aws emr 定期处理数据

我想我有一个与此线程中提出的问题类似的问题，但我会尝试更具体...

使用 aws 定期处理数据的最佳方法是什么？例如，我想每分钟处理一次聚合到 S3 中的一些报告。最好的方法是通过一些脚本每分钟向现有作业添加一个步骤？

amazon-emr emr

2012-05-17T19:38:05.450

0 投票

1 回答

381 浏览

solr - 需要关于使用 Map/Reduce 创建 solr 索引的建议

我对 Map/Reduce 世界很陌生，并试图评估最佳选择，以确定是否可以利用它在 Solr 中创建索引。目前，我正在使用常规爬网来获取数据并直接在 Solr 中对其进行索引。这工作没有任何问题。

但展望未来，我们需要访问 Amazon S3 中的大量数据。目前 S3 中存储了大约 500 万条数据，需要对其进行索引。我正在考虑使用 Amazon Elastic Map/Reduce (EMR) 直接从 S3 访问内容，然后在 Solr 中创建索引。数据结构简单，url（唯一）是S3 key，value是一个XML文件。url 将用作 Solr 中的 doc id，而 XML 数据的相关部分将作为字段存储在 Solr 索引中。

我的问题是 EMR 是否是正确的方法？任务是从 S3 访问数据，从 XML 中提取某些元素，进行一些处理，然后调用 Solr API 来生成索引。在索引数据之前，处理部分需要几个类，可能是命令模式链。这是可以实现的吗？Doo 我需要一个减速器还是可以使用映射器来完成这个过程？如果需要减速器，它的范围是什么？目前，我有一个存储数据的索引。

对此的任何指示将不胜感激。

谢谢

solr amazon-s3 mapreduce elastic-map-reduce emr

2012-05-18T03:40:40.730

0 投票

1 回答

203 浏览

hadoop - EMR 作业中的自定义 RecordReader

如何指定RecordReader要在 Amazon EMR 上的作业流中使用的自定义项？

注意：这里是 Hadoop 新手。

hadoop amazon-web-services emr

2012-05-24T02:24:37.000

0 投票

1 回答

244 浏览

r - segue 包的 Emrlapply 不适用于简单的任务

我试图segue从https://jeffreybreen.wordpress.com/2011/01/10/segue-r-to-amazon-elastic-mapreduce-hadoop/重现使用的简单示例

集群创建成功

本地模拟没问题，但是在集群上运行每次都报错。

我喜欢这个包的想法，我希望它对我的工作有用，但我不知道如何解决这个基本问题。

segue0.02版本

操作系统：Ubuntu 11.10

更新：我尝试运行另一个 Pi 估计示例测试用例，并emrlapply返回相同的错误消息。

UPDATE2：我更新到 0.03 版，现在我无法连接到集群。成功启动实例后尝试关闭但没有任何效果。我通过 AWS 控制台终止了实例。所以老问题解决了，但新问题出现了。

r emr

2012-05-27T11:34:50.343

0 投票

1 回答

4679 浏览

hadoop - Amazon EMR：使用数据初始化集群

我正在使用 Amazon EMR，并且能够使用 CLI 工具创建和运行作业流。作业运行良好。但是，当我尝试将数据从 S3 和名称节点的本地文件系统加载到我的 EMR 集群的 HDFS 时，我遇到了问题。

我想从 S3 填充 HDFS。我正在尝试使用 S3DistCp 工具来执行此操作。我正在运行这个命令：

我在日志中收到两个可能相关的错误。在 mapreduce 作业输出中，作业完成到 100%，但最终失败：

在名称节点守护程序日志中，我收到此异常：

我在创建工作流时设置了 dfs.replication=1 。我的节点是 c1.mediums，我试图推送到 HDFS 的数据低于 3GB。所以它不应该是一个磁盘外的问题。但也许我错过了一些东西。

两个问题：1) 了解 S3DistCp 失败的原因吗？2）第二个问题有些无关。是否可以创建一个作业流，其中第一个作业是 S3DistCp 作业以使用数据初始化集群？

任何见解表示赞赏。谢谢。

更新：我在评论下面的测试似乎没有用。这是来自日志的更多信息。

hadoop amazon-s3 hdfs emr

2012-05-30T20:49:03.613

0 投票

1 回答

1710 浏览

hadoop - Amazon EMR：在数据节点上配置存储

我正在使用 Amazon EMR，并且能够正常运行大多数作业。当我开始在 EMR 集群中加载和生成更多数据时，我遇到了问题。集群存储空间不足。

每个数据节点都是一个 c1.medium 实例。根据此处和此处的链接，每个数据节点应带有 350GB 的实例存储。通过 ElasticMapReduce Slave 安全组，我能够在我的 AWS 控制台中验证 c1.medium 数据节点正在运行并且是实例存储。

当我在 namenode 上运行 hadoop dfsadmin -report 时，每个数据节点都有大约 10GB 的存储空间。通过运行 df -h 进一步验证了这一点

如何配置我的数据节点以使用完整的 350GB 存储启动？有没有办法使用引导操作来做到这一点？

hadoop amazon-ec2 amazon-web-services elastic-map-reduce emr

2012-06-01T19:23:10.993

问题标签 [emr]

Reference