“emr”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

11203 浏览

hadoop - hadoop 从 hdfs 复制到 S3

我已成功完成 Amazon EMR 上的 mahout 矢量化作业（使用Elastic MapReduce 上的 Mahout作为参考）。现在我想将结果从 HDFS 复制到 S3（以在未来的集群中使用它）。

失败的。发现这个建议：使用 s3distcp也试过了：

在这两种情况下，我都有相同的错误：java.net.UnknownHostException: unknown host: my.bucket
下面是第二种情况的完整错误输出。

2012-09-06T13:49:50.033

0 投票

1 回答

1183 浏览

amazon-s3 - DynamoDB S3 导入

从S3 导入到 DynamoDB时，这是否计入预置的写入吞吐量？

我有一个只能读取的服务，除了来自 S3 中的多 GB 文件的批量更新。我们不想为整个月的预置写入付费，并且考虑到 AWS 政策只允许预置速率一次翻倍，从 0 写入扩展到数百万可能需要一段时间。

amazon-s3 amazon-web-services amazon-dynamodb amazon-emr emr

2012-09-07T12:01:31.563

0 投票

1 回答

106 浏览

java - 让 ant 将依赖的 jar 放入 ./lib

我是否有ant jar任务将依赖的 jar 放在 jar./lib内的目录中？目前，ant将这些放入./.

原因是带有 MapR 的 Amazon Hadoop EMR 似乎需要这个。

java ant hadoop amazon-web-services emr

2012-09-08T12:49:05.377

0 投票

1 回答

802 浏览

java - 关于 EMR 错误的 Mahout：Java 堆空间

我在 EMR 上运行了一个集群作业。数据集很大。一切正常，直到：

所以。基本问题是如何解决这个问题？

java hadoop amazon-web-services mahout emr

2012-09-29T11:13:45.070

0 投票

1 回答

2269 浏览

hadoop - 什么时候在 hadoop mapreduce 作业上以交互方式增加/减少节点数量是个好主意？

我有一种直觉，即在运行作业时以交互方式增加/减少节点数量可以加快映射繁重的作业，但无助于减少繁重的作业，其中大部分工作都是由 reduce 完成的。

有一个关于这个的常见问题解答，但它并没有很好地解释

http://aws.amazon.com/elasticmapreduce/faqs/#cluster-18

hadoop mapreduce emr

2012-10-09T16:26:23.510

0 投票

0 回答

459 浏览

java - EMR 上的 k-means 异常：java.lang.IllegalArgumentException：此文件系统对象不支持访问请求路径

我正在尝试从 mahout 在 EMR 上运行 k-means 算法。输入矢量化数据位于 S3。
我的命令：

我有例外：

我的命令有什么问题？

java hadoop mahout amazon-emr emr

2012-10-10T14:45:15.527

0 投票

2 回答

1835 浏览

hadoop - 在亚马逊 emr 上使用 hadoop 来处理 > 10TB 的输入是否可行？

一个大型 mapreduce 作业（加入 14 个输入目录，总共输入约 14TB）失败。我们不仅不能运行我们的工作。当我们刚刚做 map is cat / reduce is cat 时，我们甚至无法完成。复制数据似乎停滞不前。

我们的猜测是，我们正在使 aws 提供的 hadoop-on-emr 容量饱和。不确定我们是否正在饱和网络，或磁盘空间，或什么。我们得到这样的错误

“减少 > 复制（438094 中的 436333，0.10 MB/s）”

在hadoop控制面板上。它只是挂在那里，从未完成副本。另一种理论是hadoop的离线排序与复制同时发生，不知何故这是一个瓶颈。我们已经尝试了更多减速器、更多节点、不同大小的工作盒的各种排列，但不知何故，我们一直无法找到有效的组合。

由于我们迫切需要完成这项工作，因此我们正在做一个解决方法，即将数据划分为更小的作业。也就是说，14 个输入年份中的每一个都将被拆分，然后我们将加入这些分区。

有没有人有使用 aws 托管的 hadoop 处理这种大小或更大的工作的经验，如果是这样，您能否提供建议让 cat map / cat reduce 成功？比如节点数量、节点大小和配置选项？

否则，我想我们只是达到了 emr 的限制。

hadoop amazon-web-services mapreduce emr

2012-10-10T22:03:20.047

0 投票

1 回答

443 浏览

hadoop - 用于 EMR 的 hi1.4xlarge SSD EC2 实例

我有几个在 EMR 上运行的 hadoop 作业。其中一些作业需要处理日志文件。日志文件很大，每个 .gz 格式约 3GB。日志存储在 S3 上。

目前，我使用 m1.xlarge 进行处理，仅将日志文件从 S3 复制到 HDFS 大约需要 3 个小时。在这里，瓶颈是从 S3 读取还是写入 HDFS？

我的计划是使用基于新 SSD 的 hi1.4xlarge，因为它具有快速 I/O，而不是 m1.xlarge。但它有助于降低成本吗？

但是hi1.4xlarge的成本要比m1.xlarge高很多。

m1.xlarge - 8 个 EC2 计算单元 @ 每个 0.614$ = 4.912 $ /小时 h1.4xlarge - 35 个 EC2 计算单元 @ 每个 3.1$ = 108.5 $ /小时

价格涨幅约为 23 倍。我会得到这么多的性能提升吗？考虑我的 hadoop 工作是高 I/O 限制。

我无法通过启动 hi1.4xlarge 实例自己测试它，所以在 StackOverflow 上询问它。有没有人有比较这两种实例类型的基准？谷歌没有帮助。

问候。

hadoop amazon-s3 amazon-ec2 solid-state-drive emr

2012-10-11T09:23:22.207

0 投票

2 回答

4615 浏览

map - 如何终止 Amazon EMR 上正在运行的地图任务？

我有一份在 32 个现场实例上使用 Hadoop 0.20 运行的工作。它已经运行了 9 个小时，没有任何错误。在那段时间里它已经处理了 3800 个任务，但我注意到只有两个任务似乎被卡住并且已经单独运行了几个小时（显然响应是因为它们没有超时）。这些任务通常不会超过 15 分钟。我不想失去所有已经完成的工作，因为这花了我很多钱。我真的很想杀死这两个任务，让 Hadoop 重新分配它们或将它们视为失败。在他们停止之前，我无法从其他 3798 个映射中获得 reduce 结果！

但我不知道该怎么做。我考虑过尝试找出哪些实例正在运行任务，然后终止这些实例，但是

我不知道如何找出哪些实例是罪魁祸首
恐怕会产生意想不到的影响。

我如何杀死单个地图任务？

map hadoop amazon emr

2012-10-13T14:43:52.167

0 投票

4 回答

5350 浏览

hadoop - EMR 中打开的文件过多

我的减速器出现以下异常：

每个 reducer 正在创建大约 10,000 个文件。有没有办法可以设置每个盒子的ulimit。

我尝试使用以下命令作为引导脚本： ulimit -n 1000000

但这根本没有帮助。

我还在引导操作中尝试了以下操作来替换 /usr/lib/hadoop/hadoop-daemon.sh 中的 ulimit 命令：

但即便如此，当我们登录到主节点时，我仍可以看到 ulimit -n 返回：32768。我还确认在 /usr/lib/hadoop/hadoop-daemon.sh 中进行了所需的更改，并且它具有：ulimit -n 134217728。

我们对此有任何 hadoop 配置吗？或者有解决方法吗？

我的主要目的是根据每条记录的id将记录拆分成文件，现在有15亿条记录，肯定会增加。

在每个从属服务器上运行此守护程序之前，有什么方法可以编辑此文件？

hadoop mapreduce elastic-map-reduce emr

2012-10-18T11:10:27.553

问题标签 [emr]

Reference