问题标签 [emr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
11203 浏览

hadoop - hadoop 从 hdfs 复制到 S3

我已成功完成 Amazon EMR 上的 mahout 矢量化作业(使用Elastic MapReduce 上的 Mahout作为参考)。现在我想将结果从 HDFS 复制到 S3(以在未来的集群中使用它)。

失败的。发现这个建议:使用 s3distcp也试过了:

在这两种情况下,我都有相同的错误:java.net.UnknownHostException: unknown host: my.bucket
下面是第二种情况的完整错误输出。

0 投票
1 回答
1183 浏览

amazon-s3 - DynamoDB S3 导入

S3 导入到 DynamoDB时,这是否计入预置的写入吞吐量?

我有一个只能读取的服务,除了来自 S3 中的多 GB 文件的批量更新。我们不想为整个月的预置写入付费,并且考虑到 AWS 政策只允许预置速率一次翻倍,从 0 写入扩展到数百万可能需要一段时间。

0 投票
1 回答
106 浏览

java - 让 ant 将依赖的 jar 放入 ./lib

我是否有ant jar任务将依赖的 jar 放在 jar./lib内的目录中?目前,ant将这些放入./.

原因是带有 MapR 的 Amazon Hadoop EMR 似乎需要这个。

0 投票
1 回答
802 浏览

java - 关于 EMR 错误的 Mahout:Java 堆空间

我在 EMR 上运行了一个集群作业。数据集很大。一切正常,直到:

所以。基本问题是如何解决这个问题?

0 投票
1 回答
2269 浏览

hadoop - 什么时候在 hadoop mapreduce 作业上以交互方式增加/减少节点数量是个好主意?

我有一种直觉,即在运行作业时以交互方式增加/减少节点数量可以加快映射繁重的作业,但无助于减少繁重的作业,其中大部分工作都是由 reduce 完成的。

有一个关于这个的常见问题解答,但它并没有很好地解释

http://aws.amazon.com/elasticmapreduce/faqs/#cluster-18

0 投票
0 回答
459 浏览

java - EMR 上的 k-means 异常:java.lang.IllegalArgumentException:此文件系统对象不支持访问请求路径

我正在尝试从 mahout 在 EMR 上运行 k-means 算法。输入矢量化数据位于 S3。
我的命令:

我有例外:

我的命令有什么问题?

0 投票
2 回答
1835 浏览

hadoop - 在亚马逊 emr 上使用 hadoop 来处理 > 10TB 的输入是否可行?

一个大型 mapreduce 作业(加入 14 个输入目录,总共输入约 14TB)失败。我们不仅不能运行我们的工作。当我们刚刚做 map is cat / reduce is cat 时,我们甚至无法完成。复制数据似乎停滞不前。

我们的猜测是,我们正在使 aws 提供的 hadoop-on-emr 容量饱和。不确定我们是否正在饱和网络,或磁盘空间,或什么。我们得到这样的错误

“减少 > 复制(438094 中的 436333,0.10 MB/s)”

在hadoop控制面板上。它只是挂在那里,从未完成副本。另一种理论是hadoop的离线排序与复制同时发生,不知何故这是一个瓶颈。我们已经尝试了更多减速器、更多节点、不同大小的工作盒的各种排列,但不知何故,我们一直无法找到有效的组合。

由于我们迫切需要完成这项工作,因此我们正在做一个解决方法,即将数据划分为更小的作业。也就是说,14 个输入年份中的每一个都将被拆分,然后我们将加入这些分区。

有没有人有使用 aws 托管的 hadoop 处理这种大小或更大的工作的经验,如果是这样,您能否提供建议让 cat map / cat reduce 成功?比如节点数量、节点大小和配置选项?

否则,我想我们只是达到了 emr 的限制。

0 投票
1 回答
443 浏览

hadoop - 用于 EMR 的 hi1.4xlarge SSD EC2 实例

我有几个在 EMR 上运行的 hadoop 作业。其中一些作业需要处理日志文件。日志文件很大,每个 .gz 格式约 3GB。日志存储在 S3 上。

目前,我使用 m1.xlarge 进行处理,仅将日志文件从 S3 复制到 HDFS 大约需要 3 个小时。在这里,瓶颈是从 S3 读取还是写入 HDFS?

我的计划是使用基于新 SSD 的 hi1.4xlarge,因为它具有快速 I/O,而不是 m1.xlarge。但它有助于降低成本吗?

但是hi1.4xlarge的成本要比m1.xlarge高很多。

m1.xlarge - 8 个 EC2 计算单元 @ 每个 0.614$ = 4.912 $ /小时 h1.4xlarge - 35 个 EC2 计算单元 @ 每个 3.1$ = 108.5 $ /小时

价格涨幅约为 23 倍。我会得到这么多的性能提升吗?考虑我的 hadoop 工作是高 I/O 限制。

我无法通过启动 hi1.4xlarge 实例自己测试它,所以在 StackOverflow 上询问它。有没有人有比较这两种实例类型的基准?谷歌没有帮助。

问候。

0 投票
2 回答
4615 浏览

map - 如何终止 Amazon EMR 上正在运行的地图任务?

我有一份在 32 个现场实例上使用 Hadoop 0.20 运行的工作。它已经运行了 9 个小时,没有任何错误。在那段时间里它已经处理了 3800 个任务,但我注意到只有两个任务似乎被卡住并且已经单独运行了几个小时(显​​然响应是因为它们没有超时)。这些任务通常不会超过 15 分钟。我不想失去所有已经完成的工作,因为这花了我很多钱。我真的很想杀死这两个任务,让 Hadoop 重新分配它们或将它们视为失败。在他们停止之前,我无法从其他 3798 个映射中获得 reduce 结果!

但我不知道该怎么做。我考虑过尝试找出哪些实例正在运行任务,然后终止这些实例,但是

  1. 我不知道如何找出哪些实例是罪魁祸首
  2. 恐怕会产生意想不到的影响。

我如何杀死单个地图任务?

0 投票
4 回答
5350 浏览

hadoop - EMR 中打开的文件过多

我的减速器出现以下异常:

每个 reducer 正在创建大约 10,000 个文件。有没有办法可以设置每个盒子的ulimit。

我尝试使用以下命令作为引导脚本: ulimit -n 1000000

但这根本没有帮助。

我还在引导操作中尝试了以下操作来替换 /usr/lib/hadoop/hadoop-daemon.sh 中的 ulimit 命令:

但即便如此,当我们登录到主节点时,我仍可以看到 ulimit -n 返回:32768。我还确认在 /usr/lib/hadoop/hadoop-daemon.sh 中进行了所需的更改,并且它具有:ulimit -n 134217728。

我们对此有任何 hadoop 配置吗?或者有解决方法吗?

我的主要目的是根据每条记录的id将记录拆分成文件,现在有15亿条记录,肯定会增加。

在每个从属服务器上运行此守护程序之前,有什么方法可以编辑此文件?