“elastic-map-reduce”的相关标签问题

0 投票

4 回答

5350 浏览

hadoop - EMR 中打开的文件过多

我的减速器出现以下异常：

每个 reducer 正在创建大约 10,000 个文件。有没有办法可以设置每个盒子的ulimit。

我尝试使用以下命令作为引导脚本： ulimit -n 1000000

但这根本没有帮助。

我还在引导操作中尝试了以下操作来替换 /usr/lib/hadoop/hadoop-daemon.sh 中的 ulimit 命令：

但即便如此，当我们登录到主节点时，我仍可以看到 ulimit -n 返回：32768。我还确认在 /usr/lib/hadoop/hadoop-daemon.sh 中进行了所需的更改，并且它具有：ulimit -n 134217728。

我们对此有任何 hadoop 配置吗？或者有解决方法吗？

我的主要目的是根据每条记录的id将记录拆分成文件，现在有15亿条记录，肯定会增加。

在每个从属服务器上运行此守护程序之前，有什么方法可以编辑此文件？

2012-10-18T11:10:27.553

0 投票

1 回答

265 浏览

mysql - 负载均衡级联 JDBCTap for MySQL

我正在考虑编写一个级联应用程序，向 MYSQL 数据库发出 SELECT 语句，其中每个查询可以返回数百万行。

每个数据库存在于 N 个 slave 和一个 master 上，如下所示：http: //dev.mysql.com/doc/refman/5.0/en/replication-solutions-scaleout.html#figure_replication-scaleout

在 JDBCTap 中，我看到我们只能传递一个主机名：这意味着我所有的映射器都会尝试连接到一个从属设备（而其他 (N-1) 个从属设备处于空闲状态）。

假设从属服务器前面没有负载均衡器，我可以使用一个 JAVA 包/模块/代理（或者更好的是自定义的 JDBCTap 实现）来将映射器的连接分散到 N 个从属服务器上吗？

此处详细介绍了使用硬件代理的示例脚本：http: //blog.netoearth.com/html/201006/building-a-mysql-load-balancing-proxy-with-trafficscript.htm

如果这样的事情不存在，我将不得不使用以下算法创建我自己的 JDBCTap（将映射器的连接分散到 N 个从属设备上）：

在外部数据库上保留 N 个从属的列表（任何支持并发写入/更新的东西）
有一个已连接到每个从站的映射器计数器
每次映射器需要连接到从站时，它都会查询该数据库以找出负载最少的从站（连接到它的映射器的最小计数）。碰撞时随机平局。

这听起来是个好主意吗？我上面提到的“很好地支持并发写入/更新”的外部数据库可能是什么？（Cassandra、VoltDB 等）

mysql hadoop connection-pooling elastic-map-reduce cascading

2012-10-19T19:51:46.193

0 投票

1 回答

459 浏览

apache-pig - 如何在没有 Amazon GUI 的情况下在 Elastic MapReduce 上自动运行 Pig Batch 作业？

我在 .pig 文件中有一些猪批处理作业，我希望每隔一小时左右在 EMR 上自动运行一次。我在这里找到了一个这样做的教程，但这需要为我设置的每项工作使用亚马逊的 GUI，我真的宁愿避免。有没有使用 Whirr 的好方法？还是 Ruby Elastic-mapreduce 客户端？我的所有文件都在 s3 中，还有几个带有我需要使用的功能的猪罐子。

apache-pig elastic-map-reduce

2012-10-20T01:05:38.800

0 投票

1 回答

2528 浏览

amazon-s3 - 在 AWS EMR 上的 Hadoop 输出上使用 LZO 时，它是否会索引文件（存储在 S3 上）以供将来自动拆分？

我想对存储在 S3 上的 Elastic Map Reduce 作业的输出使用 LZO 压缩，但不清楚这些文件是否会自动编制索引，以便将来在此数据上运行的作业会将文件拆分为多个任务。

例如，如果我的输出是一堆 TSV 数据行，在 1GB LZO 文件中，未来的地图作业是否只会创建 1 个任务，或者类似 (1GB/blockSize) 的任务（即文件未压缩时的行为，或者目录中是否有 LZO 索引文件）？

编辑：如果这不是自动完成的，推荐什么让我的输出被 LZO 索引？在将文件上传到 S3之前进行索引吗？

amazon-s3 amazon-web-services elastic-map-reduce lzo

2012-10-22T21:13:54.377

0 投票

2 回答

1639 浏览

hadoop - 用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop map reduce 处理一些保存在 Amazon Dynamo DB 中的数据。

我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat，但找不到。我不熟悉 Dynamo DB，所以我猜有一些与 DynamoDB 和 Hadoop 相关的技巧？如果有这种输入格式的任何实现，你能分享一下吗？

hadoop amazon-web-services mapreduce amazon-dynamodb elastic-map-reduce

2012-10-22T21:22:51.060

0 投票

1 回答

1276 浏览

session - 会话化网络日志，获取上一个和下一个域

我们有一大堆网络日志数据。我们需要对它进行会话化，并为每个会话生成上一个域和下一个域。我正在通过 AWS EMR 上的交互式作业流程进行测试。

现在，我可以在此处使用以下代码获取数据会话：http: //goo.gl/L52Wf。熟悉编译和使用 UDF 需要做一些工作，但我已经做到了。

这是输入文件的标题行和第一行（制表符分隔）：

这是来自SESSIONS关系的元组（获取关系的步骤如下所示）：

这大致就是我现在正在运行的测试数据会话：

（B处的步骤是将日期移动到第一个位置。C处的步骤是过滤掉文件头）

从这里开始，我迷失了正确的方向。

我可以迭代我与猪脚本的SESSIONS关系foreach并获取下一个和上一个域吗？编写自定义 UDF 并将SESSIONS关系传递给它会更好吗？（编写我自己的 UDF 将是一次冒险！..）

任何建议将不胜感激。即使有人可以建议不要做的事情，也可能同样有帮助，所以我不会浪费时间研究垃圾方法。我对 Hadoop 和 pig 脚本还很陌生，所以这绝对不是我的强项之一（但..）。

session hadoop amazon-web-services apache-pig elastic-map-reduce

2012-10-26T20:58:31.477

0 投票

2 回答

2003 浏览

hadoop - 我可以从 AWS Elastic Mapreduce 作业访问 zookeeper

我是 Hadoop 新手，在 AWS Elastic Mapreduce 下运行。

我需要 Hadoop 中的集群范围的原子计数器，并建议为此使用 zookeeper。

我相信 zookeeper 是 Hadoop 堆栈的一部分（对吗？），我如何从 Elastic Mapreduce 作业访问它以设置和更新集群范围的计数器？

hadoop amazon-web-services apache-zookeeper elastic-map-reduce emr

2012-10-27T03:46:01.490

0 投票

2 回答

1999 浏览

amazon-web-services - 如何安排 Elastic MapReduce 作业流

我想每小时将我所有的 dynamodb 表数据转储到 s3 文件中。安排弹性 mapreduce 作业流程的最佳方法是什么？我可以使用 Amazon Simple 工作流程服务吗？

amazon-web-services amazon-dynamodb elastic-map-reduce

2012-10-31T10:59:29.973

0 投票

1 回答

454 浏览

hadoop - 对于一个大型的 mapreduce 作业，有一些挥之不去的 reducer，这个作业可以安全地缩小规模吗？

克里斯史密斯回答了这个问题并说我可以发布它。

如果您有一个 200 节点的 mapreduce 作业，并且只有 3 个运行的 reduce 作业仍然存在，那么关闭除 master 和 3 个正在运行的作业之外的所有节点是否安全？如果出现需要更换的坏节点，可能还会增加一些？

如果这个问题的答案是“是”，那么奇怪的是 emr 在大多数节点不使用时不会自动关闭它们。

最近有几项工作大部分都完成了，但有一些减少了挥之不去。我认为这让我们付出了代价，因为未使用的节点一直存在。

我能想到的有这些问题：

-- 数据何时被复制到 S3？如果一个节点在运行reduce方面没有被使用，是否仍然需要它来复制到S3？在这种情况下，我的问题的答案是你基本上永远不会安全地关闭节点——如果 3 个作业之一失败会发生什么？主/作业协调员应将其重新分配给另一个节点。我想你是安全的，只要它可以跟踪哪些盒子正在运行，并且不会错误地分配给已关闭的盒子。

hadoop elastic-map-reduce

2012-11-01T19:13:27.000

0 投票

1 回答

515 浏览

hadoop - 开始使用 Hadoop 的最简单方法

我正在寻找提交 MapReduce 作业的最简单方法。

我正在寻找一个复杂性（或简单性）类似的平台，例如 Heroku（对于 Ruby）或 picloud.com 是要映射的。

这个想法是初学者可以提交 MapReduce 作业，而无需处理设置 Hadoop 集群的复杂性。Elastic Map Reduce 已接近尾声，但设置实例的启动时间令人大跌眼镜。

所以基本上我一直在寻找完成 picloud 等价于 MapReduce 的人。

我还阅读了以下答案，但没有找到我要找的东西：这个和这个

谢谢。

hadoop elastic-map-reduce

2012-11-03T12:46:22.137

问题标签 [elastic-map-reduce]

Reference