问题标签 [emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - hadoop 从 hdfs 复制到 S3
我已成功完成 Amazon EMR 上的 mahout 矢量化作业(使用Elastic MapReduce 上的 Mahout作为参考)。现在我想将结果从 HDFS 复制到 S3(以在未来的集群中使用它)。
失败的。发现这个建议:使用 s3distcp也试过了:
在这两种情况下,我都有相同的错误:java.net.UnknownHostException: unknown host: my.bucket
下面是第二种情况的完整错误输出。
amazon-s3 - DynamoDB S3 导入
从S3 导入到 DynamoDB时,这是否计入预置的写入吞吐量?
我有一个只能读取的服务,除了来自 S3 中的多 GB 文件的批量更新。我们不想为整个月的预置写入付费,并且考虑到 AWS 政策只允许预置速率一次翻倍,从 0 写入扩展到数百万可能需要一段时间。
java - 让 ant 将依赖的 jar 放入 ./lib
我是否有ant
jar
任务将依赖的 jar 放在 jar./lib
内的目录中?目前,ant
将这些放入./
.
原因是带有 MapR 的 Amazon Hadoop EMR 似乎需要这个。
java - 关于 EMR 错误的 Mahout:Java 堆空间
我在 EMR 上运行了一个集群作业。数据集很大。一切正常,直到:
所以。基本问题是如何解决这个问题?
hadoop - 什么时候在 hadoop mapreduce 作业上以交互方式增加/减少节点数量是个好主意?
我有一种直觉,即在运行作业时以交互方式增加/减少节点数量可以加快映射繁重的作业,但无助于减少繁重的作业,其中大部分工作都是由 reduce 完成的。
有一个关于这个的常见问题解答,但它并没有很好地解释
java - EMR 上的 k-means 异常:java.lang.IllegalArgumentException:此文件系统对象不支持访问请求路径
我正在尝试从 mahout 在 EMR 上运行 k-means 算法。输入矢量化数据位于 S3。
我的命令:
我有例外:
我的命令有什么问题?
hadoop - 在亚马逊 emr 上使用 hadoop 来处理 > 10TB 的输入是否可行?
一个大型 mapreduce 作业(加入 14 个输入目录,总共输入约 14TB)失败。我们不仅不能运行我们的工作。当我们刚刚做 map is cat / reduce is cat 时,我们甚至无法完成。复制数据似乎停滞不前。
我们的猜测是,我们正在使 aws 提供的 hadoop-on-emr 容量饱和。不确定我们是否正在饱和网络,或磁盘空间,或什么。我们得到这样的错误
“减少 > 复制(438094 中的 436333,0.10 MB/s)”
在hadoop控制面板上。它只是挂在那里,从未完成副本。另一种理论是hadoop的离线排序与复制同时发生,不知何故这是一个瓶颈。我们已经尝试了更多减速器、更多节点、不同大小的工作盒的各种排列,但不知何故,我们一直无法找到有效的组合。
由于我们迫切需要完成这项工作,因此我们正在做一个解决方法,即将数据划分为更小的作业。也就是说,14 个输入年份中的每一个都将被拆分,然后我们将加入这些分区。
有没有人有使用 aws 托管的 hadoop 处理这种大小或更大的工作的经验,如果是这样,您能否提供建议让 cat map / cat reduce 成功?比如节点数量、节点大小和配置选项?
否则,我想我们只是达到了 emr 的限制。
hadoop - 用于 EMR 的 hi1.4xlarge SSD EC2 实例
我有几个在 EMR 上运行的 hadoop 作业。其中一些作业需要处理日志文件。日志文件很大,每个 .gz 格式约 3GB。日志存储在 S3 上。
目前,我使用 m1.xlarge 进行处理,仅将日志文件从 S3 复制到 HDFS 大约需要 3 个小时。在这里,瓶颈是从 S3 读取还是写入 HDFS?
我的计划是使用基于新 SSD 的 hi1.4xlarge,因为它具有快速 I/O,而不是 m1.xlarge。但它有助于降低成本吗?
但是hi1.4xlarge的成本要比m1.xlarge高很多。
m1.xlarge - 8 个 EC2 计算单元 @ 每个 0.614$ = 4.912 $ /小时 h1.4xlarge - 35 个 EC2 计算单元 @ 每个 3.1$ = 108.5 $ /小时
价格涨幅约为 23 倍。我会得到这么多的性能提升吗?考虑我的 hadoop 工作是高 I/O 限制。
我无法通过启动 hi1.4xlarge 实例自己测试它,所以在 StackOverflow 上询问它。有没有人有比较这两种实例类型的基准?谷歌没有帮助。
问候。
map - 如何终止 Amazon EMR 上正在运行的地图任务?
我有一份在 32 个现场实例上使用 Hadoop 0.20 运行的工作。它已经运行了 9 个小时,没有任何错误。在那段时间里它已经处理了 3800 个任务,但我注意到只有两个任务似乎被卡住并且已经单独运行了几个小时(显然响应是因为它们没有超时)。这些任务通常不会超过 15 分钟。我不想失去所有已经完成的工作,因为这花了我很多钱。我真的很想杀死这两个任务,让 Hadoop 重新分配它们或将它们视为失败。在他们停止之前,我无法从其他 3798 个映射中获得 reduce 结果!
但我不知道该怎么做。我考虑过尝试找出哪些实例正在运行任务,然后终止这些实例,但是
- 我不知道如何找出哪些实例是罪魁祸首
- 恐怕会产生意想不到的影响。
我如何杀死单个地图任务?
hadoop - EMR 中打开的文件过多
我的减速器出现以下异常:
每个 reducer 正在创建大约 10,000 个文件。有没有办法可以设置每个盒子的ulimit。
我尝试使用以下命令作为引导脚本: ulimit -n 1000000
但这根本没有帮助。
我还在引导操作中尝试了以下操作来替换 /usr/lib/hadoop/hadoop-daemon.sh 中的 ulimit 命令:
但即便如此,当我们登录到主节点时,我仍可以看到 ulimit -n 返回:32768。我还确认在 /usr/lib/hadoop/hadoop-daemon.sh 中进行了所需的更改,并且它具有:ulimit -n 134217728。
我们对此有任何 hadoop 配置吗?或者有解决方法吗?
我的主要目的是根据每条记录的id将记录拆分成文件,现在有15亿条记录,肯定会增加。
在每个从属服务器上运行此守护程序之前,有什么方法可以编辑此文件?