问题标签 [emr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
201 浏览

hadoop - 支持 Amazon EMR 上的 Hadoop 1.0.1 作业

我已经使用 java 和 hadoop 1.0.1 开发了一些 MR 作业。但是,EMR 仅支持 Hadoop 0.20。是否可以在 EMR 上运行 Hadoop 1.0.1 作业,或者我是否必须降级我的库堆栈以符合 EMR hadoop 版本?

0 投票
1 回答
978 浏览

amazon-web-services - 运行 Amazon EMR 作业时出现“文件不存在”错误

我已经上传了我的数据 genotype1_large_ind_large.txt phenotype1_large_ind_large_1.txt

到 S3 系统,在 EMR UI 中,我设置如下参数

RunDear.run s3n://scalability/genotype1_large_ind_large.txt s3n://scalability/phenotype1_large_ind_large_1.txt s3n://scalability/output_1phe 33 10 4

在我的 RunDear.run 类中,我会将文件 genotype1_large_ind_large.txt 和 phenotype1_large_ind_large_1.txt 分发到缓存中

但是,运行 EMR 后,出现以下错误: java.io.FileNotFoundException: File does not exist: /genotype1_large_ind_large.txt

我想知道为什么文件名前面有斜杠'/'?如何使它工作?

我也尝试像下面这样使用,但我的程序会将 -cacheFile 作为参数,因此也不起作用,

RunDear.run -cacheFile s3n://scalability/genotype1_large_ind_large.txt#genotype.txt -cacheFile s3n://scalability/phenotype1_large_ind_large_1.txt#phenotype.txt s3n://scalability/output_1phe 33 280 4

0 投票
1 回答
1045 浏览

azure - 对于 Hadoop,选择哪种数据存储,Amazon S3 还是 Azure Blob Store?

我正在处理一个 Hadoop 项目并在我的本地集群中生成大量数据。不久之后,我将使用基于云的 Hadoop 解决方案,因为与实际工作负载相比,我的 Hadoop 集群非常小,但是我现在无法选择我将使用哪一个,即基于 Windows Azure、EMR 或其他。我正在本地生成大量数据,并希望将这些数据存储到一些基于云的存储中,因为我稍后将很快将这些数据与 Hadoop 一起使用。

我正在寻找建议,以根据某人的经验决定选择哪个云存储。提前致谢。

0 投票
1 回答
1583 浏览

java - Amazon EMR:将 XML 或属性文件传递到 JAR

我一直在从单个 JAR 文件在 hadoop 集群上运行几个 map reduce 作业。JAR 的 Main 接受 XML 文件作为命令行参数。XML 文件包含每个作业的输入和输出路径(名称-值属性对),我使用它们来配置每个 mapreduce 作业。我可以像这样将路径加载到配置中

我现在正在尝试使用 Amazon 的 Elastic MapReduce 运行 JAR。我尝试将 XML 文件上传到 S3,但当然使用 FileInputStream 从 S3 加载路径数据不起作用(FileNotFound 异常)。

使用 EMR 时如何将 XML 文件传递​​到 JAR?

(我查看了引导操作,但据我所知,这是指定 hadoop 特定的配置)。

任何见解将不胜感激。谢谢。

0 投票
3 回答
1002 浏览

amazon-emr - 使用 aws emr 定期处理数据

我想我有一个与此线程中提出的问题类似的问题,但我会尝试更具体...

使用 aws 定期处理数据的最佳方法是什么?例如,我想每分钟处理一次聚合到 S3 中的一些报告。最好的方法是通过一些脚本每分钟向现有作业添加一个步骤?

0 投票
1 回答
381 浏览

solr - 需要关于使用 Map/Reduce 创建 solr 索引的建议

我对 Map/Reduce 世界很陌生,并试图评估最佳选择,以确定是否可以利用它在 Solr 中创建索引。目前,我正在使用常规爬网来获取数据并直接在 Solr 中对其进行索引。这工作没有任何问题。

但展望未来,我们需要访问 Amazon S3 中的大量数据。目前 S3 中存储了大约 500 万条数据,需要对其进行索引。我正在考虑使用 Amazon Elastic Map/Reduce (EMR) 直接从 S3 访问内容,然后在 Solr 中创建索引。数据结构简单,url(唯一)是S3 key,value是一个XML文件。url 将用作 Solr 中的 doc id,而 XML 数据的相关部分将作为字段存储在 Solr 索引中。

我的问题是 EMR 是否是正确的方法?任务是从 S3 访问数据,从 XML 中提取某些元素,进行一些处理,然后调用 Solr API 来生成索引。在索引数据之前,处理部分需要几个类,可能是命令模式链。这是可以实现的吗?Doo 我需要一个减速器还是可以使用映射器来完成这个过程?如果需要减速器,它的范围是什么?目前,我有一个存储数据的索引。

对此的任何指示将不胜感激。

谢谢

0 投票
1 回答
203 浏览

hadoop - EMR 作业中的自定义 RecordReader

如何指定RecordReader要在 Amazon EMR 上的作业流中使用的自定义项?

注意:这里是 Hadoop 新手。

0 投票
1 回答
244 浏览

r - segue 包的 Emrlapply 不适用于简单的任务

我试图seguehttps://jeffreybreen.wordpress.com/2011/01/10/segue-r-to-amazon-elastic-mapreduce-hadoop/重现使用的简单示例

集群创建成功

本地模拟没问题,但是在集群上运行每次都报错。

我喜欢这个包的想法,我希望它对我的工作有用,但我不知道如何解决这个基本问题。

segue0.02版本

操作系统:Ubuntu 11.10

更新:我尝试运行另一个 Pi 估计示例测试用例,并emrlapply返回相同的错误消息。

UPDATE2:我更新到 0.03 版,现在我无法连接到集群。成功启动实例后尝试关闭但没有任何效果。我通过 AWS 控制台终止了实例。所以老问题解决了,但新问题出现了。

0 投票
1 回答
4679 浏览

hadoop - Amazon EMR:使用数据初始化集群

我正在使用 Amazon EMR,并且能够使用 CLI 工具创建和运行作业流。作业运行良好。但是,当我尝试将数据从 S3 和名称节点的本地文件系统加载到我的 EMR 集群的 HDFS 时,我遇到了问题。

我想从 S3 填充 HDFS。我正在尝试使用 S3DistCp 工具来执行此操作。我正在运行这个命令:

我在日志中收到两个可能相关的错误。在 mapreduce 作业输出中,作业完成到 100%,但最终失败:

在名称节点守护程序日志中,我收到此异常:

我在创建工作流时设置了 dfs.replication=1 。我的节点是 c1.mediums,我试图推送到 HDFS 的数据低于 3GB。所以它不应该是一个磁盘外的问题。但也许我错过了一些东西。

两个问题:1) 了解 S3DistCp 失败的原因吗?2)第二个问题有些无关。是否可以创建一个作业流,其中第一个作业是 S3DistCp 作业以使用数据初始化集群?

任何见解表示赞赏。谢谢。

更新:我在评论下面的测试似乎没有用。这是来自日志的更多信息。

0 投票
1 回答
1710 浏览

hadoop - Amazon EMR:在数据节点上配置存储

我正在使用 Amazon EMR,并且能够正常运行大多数作业。当我开始在 EMR 集群中加载和生成更多数据时,我遇到了问题。集群存储空间不足。

每个数据节点都是一个 c1.medium 实例。根据此处此处的链接,每个数据节点应带有 350GB 的实例存储。通过 ElasticMapReduce Slave 安全组,我能够在我的 AWS 控制台中验证 c1.medium 数据节点正在运行并且是实例存储。

当我在 namenode 上运行 hadoop dfsadmin -report 时,每个数据节点都有大约 10GB 的存储空间。通过运行 df -h 进一步验证了这一点

如何配置我的数据节点以使用完整的 350GB 存储启动?有没有办法使用引导操作来做到这一点?