问题标签 [elastic-map-reduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
5350 浏览

hadoop - EMR 中打开的文件过多

我的减速器出现以下异常:

每个 reducer 正在创建大约 10,000 个文件。有没有办法可以设置每个盒子的ulimit。

我尝试使用以下命令作为引导脚本: ulimit -n 1000000

但这根本没有帮助。

我还在引导操作中尝试了以下操作来替换 /usr/lib/hadoop/hadoop-daemon.sh 中的 ulimit 命令:

但即便如此,当我们登录到主节点时,我仍可以看到 ulimit -n 返回:32768。我还确认在 /usr/lib/hadoop/hadoop-daemon.sh 中进行了所需的更改,并且它具有:ulimit -n 134217728。

我们对此有任何 hadoop 配置吗?或者有解决方法吗?

我的主要目的是根据每条记录的id将记录拆分成文件,现在有15亿条记录,肯定会增加。

在每个从属服务器上运行此守护程序之前,有什么方法可以编辑此文件?

0 投票
1 回答
265 浏览

mysql - 负载均衡级联 JDBCTap for MySQL

我正在考虑编写一个级联应用程序,向 MYSQL 数据库发出 SELECT 语句,其中每个查询可以返回数百万行。

每个数据库存在于 N 个 slave 和一个 master 上,如下所示:http: //dev.mysql.com/doc/refman/5.0/en/replication-solutions-scaleout.html#figure_replication-scaleout

在 JDBCTap 中,我看到我们只能传递一个主机名:这意味着我所有的映射器都会尝试连接到一个从属设备(而其他 (N-1) 个从属设备处于空闲状态)。

假设从属服务器前面没有负载均衡器,我可以使用一个 JAVA 包/模块/代理(或者更好的是自定义的 JDBCTap 实现)来将映射器的连接分散到 N 个从属服务器上吗?

此处详细介绍了使用硬件代理的示例脚本:http: //blog.netoearth.com/html/201006/building-a-mysql-load-balancing-proxy-with-trafficscript.htm

如果这样的事情不存在,我将不得不使用以下算法创建我自己的 JDBCTap(将映射器的连接分散到 N 个从属设备上):

  1. 在外部数据库上保留 N 个从属的列表(任何支持并发写入/更新的东西)
  2. 有一个已连接到每个从站的映射器计数器
  3. 每次映射器需要连接到从站时,它都会查询该数据库以找出负载最少的从站(连接到它的映射器的最小计数)。碰撞时随机平局。

这听起来是个好主意吗?我上面提到的“很好地支持并发写入/更新”的外部数据库可能是什么?(Cassandra、VoltDB 等)

0 投票
1 回答
459 浏览

apache-pig - 如何在没有 Amazon GUI 的情况下在 Elastic MapReduce 上自动运行 Pig Batch 作业?

我在 .pig 文件中有一些猪批处理作业,我希望每隔一小时左右在 EMR 上自动运行一次。我在这里找到了一个这样做的教程,但这需要为我设置的每项工作使用亚马逊的 GUI,我真的宁愿避免。有没有使用 Whirr 的好方法?还是 Ruby Elastic-mapreduce 客户端?我的所有文件都在 s3 中,还有几个带有我需要使用的功能的猪罐子。

0 投票
1 回答
2528 浏览

amazon-s3 - 在 AWS EMR 上的 Hadoop 输出上使用 LZO 时,它是否会索引文件(存储在 S3 上)以供将来自动拆分?

我想对存储在 S3 上的 Elastic Map Reduce 作业的输出使用 LZO 压缩,但不清楚这些文件是否会自动编制索引,以便将来在此数据上运行的作业会将文件拆分为多个任务。

例如,如果我的输出是一堆 TSV 数据行,在 1GB LZO 文件中,未来的地图作业是否只会创建 1 个任务,或者类似 (1GB/blockSize) 的任务(即文件未压缩时的行为,或者目录中是否有 LZO 索引文件)?

编辑:如果这不是自动完成的,推荐什么让我的输出被 LZO 索引?在将文件上传到 S3之前进行索引吗?

0 投票
2 回答
1639 浏览

hadoop - 用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop map reduce 处理一些保存在 Amazon Dynamo DB 中的数据。

我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat,但找不到。我不熟悉 Dynamo DB,所以我猜有一些与 DynamoDB 和 Hadoop 相关的技巧?如果有这种输入格式的任何实现,你能分享一下吗?

0 投票
1 回答
1276 浏览

session - 会话化网络日志,获取上一个和下一个域

我们有一大堆网络日志数据。我们需要对它进行会话化,并为每个会话生成上一个域和下一个域。我正在通过 AWS EMR 上的交互式作业流程进行测试。

现在,我可以在此处使用以下代码获取数据会话:http: //goo.gl/L52Wf。熟悉编译和使用 UDF 需要做一些工作,但我已经做到了。

这是输入文件的标题行和第一行(制表符分隔):

这是来自SESSIONS关系的元组(获取关系的步骤如下所示):

这大致就是我现在正在运行的测试数据会话:

(B处的步骤是将日期移动到第一个位置。C处的步骤是过滤掉文件头)

从这里开始,我迷失了正确的方向。

我可以迭代我与猪脚本的SESSIONS关系foreach并获取下一个和上一个域吗?编写自定义 UDF 并将SESSIONS关系传递给它会更好吗?(编写我自己的 UDF 将是一次冒险!..)

任何建议将不胜感激。即使有人可以建议不要做的事情,也可能同样有帮助,所以我不会浪费时间研究垃圾方法。我对 Hadoop 和 pig 脚本还很陌生,所以这绝对不是我的强项之一(但..)。

0 投票
2 回答
2003 浏览

hadoop - 我可以从 AWS Elastic Mapreduce 作业访问 zookeeper

我是 Hadoop 新手,在 AWS Elastic Mapreduce 下运行。

我需要 Hadoop 中的集群范围的原子计数器,并建议为此使用 zookeeper。

我相信 zookeeper 是 Hadoop 堆栈的一部分(对吗?),我如何从 Elastic Mapreduce 作业访问它以设置和更新集群范围的计数器?

0 投票
2 回答
1999 浏览

amazon-web-services - 如何安排 Elastic MapReduce 作业流

我想每小时将我所有的 dynamodb 表数据转储到 s3 文件中。安排弹性 mapreduce 作业流程的最佳方法是什么?我可以使用 Amazon Simple 工作流程服务吗?

0 投票
1 回答
454 浏览

hadoop - 对于一个大型的 mapreduce 作业,有一些挥之不去的 reducer,这个作业可以安全地缩小规模吗?

克里斯史密斯回答了这个问题并说我可以发布它。

如果您有一个 200 节点的 mapreduce 作业,并且只有 3 个运行的 reduce 作业仍然存在,那么关闭除 master 和 3 个正在运行的作业之外的所有节点是否安全?如果出现需要更换的坏节点,可能还会增加一些?

如果这个问题的答案是“是”,那么奇怪的是 emr 在大多数节点不使用时不会自动关闭它们。

最近有几项工作大部分都完成了,但有一些减少了挥之不去。我认为这让我们付出了代价,因为未使用的节点一直存在。

我能想到的有这些问题:

-- 数据何时被复制到 S3?如果一个节点在运行reduce方面没有被使用,是否仍然需要它来复制到S3?在这种情况下,我的问题的答案是你基本上永远不会安全地关闭节点——如果 3 个作业之一失败会发生什么?主/作业协调员应将其重新分配给另一个节点。我想你是安全的,只要它可以跟踪哪些盒子正在运行,并且不会错误地分配给已关闭的盒子。

0 投票
1 回答
515 浏览

hadoop - 开始使用 Hadoop 的最简单方法

我正在寻找提交 MapReduce 作业的最简单方法。

我正在寻找一个复杂性(或简单性)类似的平台,例如 Heroku(对于 Ruby)或 picloud.com 是要映射的。

这个想法是初学者可以提交 MapReduce 作业,而无需处理设置 Hadoop 集群的复杂性。Elastic Map Reduce 已接近尾声,但设置实例的启动时间令人大跌眼镜。

所以基本上我一直在寻找完成 picloud 等价于 MapReduce 的人。

我还阅读了以下答案,但没有找到我要找的东西:这个这个

谢谢。