问题标签 [elastic-map-reduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8354 浏览

java - 如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定映射配置和 java 选项?

我想知道在使用自定义 jar 运行流式作业时如何指定 mapreduce 配置,例如mapred.task.timeout 、 mapred.min.split.size等。

当我们使用 ruby​​ 或 python 等外部脚本语言运行时,我们可以使用以下方式来指定这些配置:

ruby elastic-mapreduce -j --stream --step-name "mystream" --jobconf mapred.task.timeout=0 --jobconf mapred.min.split.size=52880 --mapper s3://somepath/mapper. rb --reducer s3:somepath/reducer.rb --input s3://somepath/input --output s3://somepath/output

我尝试了以下方法,但都没有奏效:

  1. ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -m,mapred.min.split .size=52880 -m,mapred.task.timeout=0

  2. ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -jobconf,mapred.min.split .size=52880 -jobconf,mapred.task.timeout=0

我还想知道如何使用 EMR 中的自定义 jar 将 java 选项传递给流式作业。在 hadoop 上本地运行时,我们可以按如下方式传递它:

bin/hadoop jar job.jar input_path output_path -D< some_java_parameter >=< some_value >

0 投票
1 回答
2063 浏览

amazon-ec2 - 如何配置 Amazon EMR 流作业以使用 EC2 现货实例 (Ruby CLI)?

当我使用 Ruby 命令行界面使用 Amazon Elastic MapReduce (Amazon EMR) 创建流式作业时,如何指定使用EC2 现货实例(主实例除外)?下面的命令正在运行,但它“强制”我使用至少 1 个核心实例......

谢谢

0 投票
4 回答
4060 浏览

apache-pig - 如何在 Elastic MapReduce 中将 Python UDF 与 Pig 结合使用?

我真的很想在我们的 AWS Elastic MapReduce 集群上利用 Pig 中的 Python UDF,但我不能让事情正常工作。无论我尝试什么,我的猪作业都会失败,并记录以下异常:

在 Elastic MapReduce 中为 Pig 使用 Python UDF 需要做什么?

0 投票
3 回答
31117 浏览

amazon-s3 - 将 Hive 表导出到 S3 存储桶

我通过 Elastic MapReduce 交互式会话创建了一个 Hive 表,并从 CSV 文件中填充它,如下所示:

我现在想将 Hive 表存储在 S3 存储桶中,以便在终止 MapReduce 实例后保留该表。

有谁知道如何做到这一点?

0 投票
1 回答
1235 浏览

java - mapreduce 作业中的 API 调用

我想问一下在运行 map reduce 作业时调用外部 API 的不便之处。有哪些缺点?

一些例子:如果在映射器内部,我们需要对地址进行地理编码,我们调用谷歌地图 api,或者调用外部数据库以获取项目的相关元素等。

0 投票
2 回答
956 浏览

mapreduce - 如何使用 Amazon mapreduce 解析 freebase quad 转储

我试图从 freebase 中提取电影信息,我只需要电影的名称、导演和演员的姓名和 ID。

我发现使用 freebases 主题转储很难做到这一点,因为没有对导演 ID 的引用,只有导演姓名。

这项任务的正确方法是什么?我需要使用亚马逊云以某种方式解析整个四边形转储吗?还是有什么好办法?

0 投票
3 回答
3306 浏览

hadoop - 如何从 Windows 在亚马逊的弹性 mapreduce (emr) 集群上运行 mapreduce 作业?

我正在尝试学习如何在亚马逊的 EMR 上运行 java Map/Reduce (M/R) 作业。我正在关注的文档在这里http://aws.amazon.com/articles/3938。我在 Windows 7 电脑上。

当我尝试运行此命令时,会显示帮助信息。

当然,因为我在 Windows 机器上,所以我实际上输入了这个命令。我不知道为什么,但是对于这个特定的命令,没有 Windows 版本(所有命令成对显示,一个用于 *nix,一个用于 Windows)。

我的问题是我们如何使用命令行界面(在 Windows 上)从 Windows 向亚马逊的 EMR 提交/运行作业?我试过在网上搜索,但我被带到了野外。任何帮助表示赞赏。

谢谢。

0 投票
3 回答
9736 浏览

python - Broken Pipe Error 导致 AWS 上的流式 Elastic MapReduce 作业失败

当我执行以下操作时,一切都在本地正常工作:

但是,当我在 AWS Elastic Mapreduce 上运行流式 MapReduce 作业时,该作业没有成功完成。mapper.py运行中途(我知道这是因为一路写信)stderr。映射器被“Broken Pipe”错误中断,我可以在任务尝试失败后从系统日志中检索该错误:

这里是mapper.py。请注意,我写信给 stderr 是为了给自己提供调试信息:

这是我在运行 mapper.py 时在 stderr 中获得的任务尝试:

基本上,循环运行了 3 次,然后突然停止,python 没有抛出任何错误。(注意:它应该输出数千行)。即使是未捕获的异常也应该出现在标准错误中。

因为 MapReduce 在我的本地计算机上运行得非常好,我猜这是 Hadoop 如何处理我从 mapper.py 打印的输出的问题。但我对问题可能是什么一无所知。

0 投票
2 回答
1678 浏览

php - 我们如何从 AWS SDK for PHP 传递 Hadoop 流的参数?

我正在尝试通过 AWS SDK for PHP 添加一些工作。我能够成功启动集群并通过 API 启动新的作业流程,但在尝试创建 Hadoop Streaming 步骤时出现错误。

这是我的代码:

我收到如下错误:无效的流参数'-input s3://.... -output s3://..... -mapper s3://....../mapper.php -reducer s3://...../reducer.php"

所以不清楚如何将参数传递给 Hadoop Streaming JAR ?

官方 AWS SDK for PHP 文档不提供任何示例或文档。

可能相关的未答复线程:

使用 aws php sdk 将参数传递给 hive 脚本

0 投票
2 回答
5434 浏览

hadoop - Amazon Elastic MapReduce 引导操作不起作用

我尝试了以下引导操作的组合来增加我的工作的堆大小,但它们似乎都不起作用:

什么是正确的语法?