问题标签 [elastic-map-reduce]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

460 问题

0 投票

2 回答

8354 浏览

java - 如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定映射配置和 java 选项？

我想知道在使用自定义 jar 运行流式作业时如何指定 mapreduce 配置，例如mapred.task.timeout 、 mapred.min.split.size等。

当我们使用 ruby 或 python 等外部脚本语言运行时，我们可以使用以下方式来指定这些配置：

ruby elastic-mapreduce -j --stream --step-name "mystream" --jobconf mapred.task.timeout=0 --jobconf mapred.min.split.size=52880 --mapper s3://somepath/mapper. rb --reducer s3:somepath/reducer.rb --input s3://somepath/input --output s3://somepath/output

我尝试了以下方法，但都没有奏效：

ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -m,mapred.min.split .size=52880 -m,mapred.task.timeout=0
ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -jobconf,mapred.min.split .size=52880 -jobconf,mapred.task.timeout=0

我还想知道如何使用 EMR 中的自定义 jar 将 java 选项传递给流式作业。在 hadoop 上本地运行时，我们可以按如下方式传递它：

bin/hadoop jar job.jar input_path output_path -D< some_java_parameter >=< some_value >

2012-02-14T20:45:45.823

0 投票

1 回答

2063 浏览

amazon-ec2 - 如何配置 Amazon EMR 流作业以使用 EC2 现货实例 (Ruby CLI)？

当我使用 Ruby 命令行界面使用 Amazon Elastic MapReduce (Amazon EMR) 创建流式作业时，如何指定仅使用EC2 现货实例（主实例除外）？下面的命令正在运行，但它“强制”我使用至少 1 个核心实例......

谢谢

amazon-ec2 amazon-web-services elastic-map-reduce amazon-emr

2012-02-15T10:06:06.697

0 投票

4 回答

4060 浏览

apache-pig - 如何在 Elastic MapReduce 中将 Python UDF 与 Pig 结合使用？

我真的很想在我们的 AWS Elastic MapReduce 集群上利用 Pig 中的 Python UDF，但我不能让事情正常工作。无论我尝试什么，我的猪作业都会失败，并记录以下异常：

在 Elastic MapReduce 中为 Pig 使用 Python UDF 需要做什么？

apache-pig elastic-map-reduce

2012-02-15T20:06:30.330

0 投票

3 回答

31117 浏览

amazon-s3 - 将 Hive 表导出到 S3 存储桶

我通过 Elastic MapReduce 交互式会话创建了一个 Hive 表，并从 CSV 文件中填充它，如下所示：

我现在想将 Hive 表存储在 S3 存储桶中，以便在终止 MapReduce 实例后保留该表。

有谁知道如何做到这一点？

amazon-s3 hive elastic-map-reduce emr

2012-02-28T20:48:04.333

0 投票

1 回答

1235 浏览

java - mapreduce 作业中的 API 调用

我想问一下在运行 map reduce 作业时调用外部 API 的不便之处。有哪些缺点？

一些例子：如果在映射器内部，我们需要对地址进行地理编码，我们调用谷歌地图 api，或者调用外部数据库以获取项目的相关元素等。

java api hadoop mapreduce elastic-map-reduce

2012-03-05T10:38:14.657

0 投票

2 回答

956 浏览

mapreduce - 如何使用 Amazon mapreduce 解析 freebase quad 转储

我试图从 freebase 中提取电影信息，我只需要电影的名称、导演和演员的姓名和 ID。

我发现使用 freebases 主题转储很难做到这一点，因为没有对导演 ID 的引用，只有导演姓名。

这项任务的正确方法是什么？我需要使用亚马逊云以某种方式解析整个四边形转储吗？还是有什么好办法？

mapreduce freebase elastic-map-reduce

2012-03-07T14:11:37.253

0 投票

3 回答

3306 浏览

hadoop - 如何从 Windows 在亚马逊的弹性 mapreduce (emr) 集群上运行 mapreduce 作业？

我正在尝试学习如何在亚马逊的 EMR 上运行 java Map/Reduce (M/R) 作业。我正在关注的文档在这里http://aws.amazon.com/articles/3938。我在 Windows 7 电脑上。

当我尝试运行此命令时，会显示帮助信息。

当然，因为我在 Windows 机器上，所以我实际上输入了这个命令。我不知道为什么，但是对于这个特定的命令，没有 Windows 版本（所有命令成对显示，一个用于 *nix，一个用于 Windows）。

我的问题是我们如何使用命令行界面（在 Windows 上）从 Windows 向亚马逊的 EMR 提交/运行作业？我试过在网上搜索，但我被带到了野外。任何帮助表示赞赏。

谢谢。

hadoop mapreduce elastic-map-reduce amazon-emr

2012-03-08T16:55:31.023

0 投票

3 回答

9736 浏览

python - Broken Pipe Error 导致 AWS 上的流式 Elastic MapReduce 作业失败

当我执行以下操作时，一切都在本地正常工作：

但是，当我在 AWS Elastic Mapreduce 上运行流式 MapReduce 作业时，该作业没有成功完成。mapper.py运行中途（我知道这是因为一路写信）stderr。映射器被“Broken Pipe”错误中断，我可以在任务尝试失败后从系统日志中检索该错误：

这里是mapper.py。请注意，我写信给 stderr 是为了给自己提供调试信息：

这是我在运行 mapper.py 时在 stderr 中获得的任务尝试：

基本上，循环运行了 3 次，然后突然停止，python 没有抛出任何错误。（注意：它应该输出数千行）。即使是未捕获的异常也应该出现在标准错误中。

因为 MapReduce 在我的本地计算机上运行得非常好，我猜这是 Hadoop 如何处理我从 mapper.py 打印的输出的问题。但我对问题可能是什么一无所知。

python hadoop amazon-web-services mapreduce elastic-map-reduce

2012-03-26T23:15:07.553

0 投票

2 回答

1678 浏览

php - 我们如何从 AWS SDK for PHP 传递 Hadoop 流的参数？

我正在尝试通过 AWS SDK for PHP 添加一些工作。我能够成功启动集群并通过 API 启动新的作业流程，但在尝试创建 Hadoop Streaming 步骤时出现错误。

这是我的代码：

我收到如下错误：无效的流参数'-input s3://.... -output s3://..... -mapper s3://....../mapper.php -reducer s3://...../reducer.php"

所以不清楚如何将参数传递给 Hadoop Streaming JAR ？

官方 AWS SDK for PHP 文档不提供任何示例或文档。

可能相关的未答复线程：

使用 aws php sdk 将参数传递给 hive 脚本

php amazon-web-services elastic-map-reduce hadoop-streaming amazon-emr

2012-04-02T13:02:02.243

0 投票

2 回答

5434 浏览

hadoop - Amazon Elastic MapReduce 引导操作不起作用

我尝试了以下引导操作的组合来增加我的工作的堆大小，但它们似乎都不起作用：

什么是正确的语法？

hadoop amazon-web-services mapreduce elastic-map-reduce amazon-emr

2012-04-05T07:38:52.260

1 2 3 4 5 6 7 8 9 10

问题标签 [elastic-map-reduce]

Reference