问题标签 [elastic-map-reduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定映射配置和 java 选项?
我想知道在使用自定义 jar 运行流式作业时如何指定 mapreduce 配置,例如mapred.task.timeout 、 mapred.min.split.size等。
当我们使用 ruby 或 python 等外部脚本语言运行时,我们可以使用以下方式来指定这些配置:
ruby elastic-mapreduce -j --stream --step-name "mystream" --jobconf mapred.task.timeout=0 --jobconf mapred.min.split.size=52880 --mapper s3://somepath/mapper. rb --reducer s3:somepath/reducer.rb --input s3://somepath/input --output s3://somepath/output
我尝试了以下方法,但都没有奏效:
ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -m,mapred.min.split .size=52880 -m,mapred.task.timeout=0
ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -jobconf,mapred.min.split .size=52880 -jobconf,mapred.task.timeout=0
我还想知道如何使用 EMR 中的自定义 jar 将 java 选项传递给流式作业。在 hadoop 上本地运行时,我们可以按如下方式传递它:
bin/hadoop jar job.jar input_path output_path -D< some_java_parameter >=< some_value >
amazon-ec2 - 如何配置 Amazon EMR 流作业以使用 EC2 现货实例 (Ruby CLI)?
当我使用 Ruby 命令行界面使用 Amazon Elastic MapReduce (Amazon EMR) 创建流式作业时,如何指定仅使用EC2 现货实例(主实例除外)?下面的命令正在运行,但它“强制”我使用至少 1 个核心实例......
谢谢
apache-pig - 如何在 Elastic MapReduce 中将 Python UDF 与 Pig 结合使用?
我真的很想在我们的 AWS Elastic MapReduce 集群上利用 Pig 中的 Python UDF,但我不能让事情正常工作。无论我尝试什么,我的猪作业都会失败,并记录以下异常:
在 Elastic MapReduce 中为 Pig 使用 Python UDF 需要做什么?
amazon-s3 - 将 Hive 表导出到 S3 存储桶
我通过 Elastic MapReduce 交互式会话创建了一个 Hive 表,并从 CSV 文件中填充它,如下所示:
我现在想将 Hive 表存储在 S3 存储桶中,以便在终止 MapReduce 实例后保留该表。
有谁知道如何做到这一点?
java - mapreduce 作业中的 API 调用
我想问一下在运行 map reduce 作业时调用外部 API 的不便之处。有哪些缺点?
一些例子:如果在映射器内部,我们需要对地址进行地理编码,我们调用谷歌地图 api,或者调用外部数据库以获取项目的相关元素等。
mapreduce - 如何使用 Amazon mapreduce 解析 freebase quad 转储
我试图从 freebase 中提取电影信息,我只需要电影的名称、导演和演员的姓名和 ID。
我发现使用 freebases 主题转储很难做到这一点,因为没有对导演 ID 的引用,只有导演姓名。
这项任务的正确方法是什么?我需要使用亚马逊云以某种方式解析整个四边形转储吗?还是有什么好办法?
hadoop - 如何从 Windows 在亚马逊的弹性 mapreduce (emr) 集群上运行 mapreduce 作业?
我正在尝试学习如何在亚马逊的 EMR 上运行 java Map/Reduce (M/R) 作业。我正在关注的文档在这里http://aws.amazon.com/articles/3938。我在 Windows 7 电脑上。
当我尝试运行此命令时,会显示帮助信息。
当然,因为我在 Windows 机器上,所以我实际上输入了这个命令。我不知道为什么,但是对于这个特定的命令,没有 Windows 版本(所有命令成对显示,一个用于 *nix,一个用于 Windows)。
我的问题是我们如何使用命令行界面(在 Windows 上)从 Windows 向亚马逊的 EMR 提交/运行作业?我试过在网上搜索,但我被带到了野外。任何帮助表示赞赏。
谢谢。
python - Broken Pipe Error 导致 AWS 上的流式 Elastic MapReduce 作业失败
当我执行以下操作时,一切都在本地正常工作:
但是,当我在 AWS Elastic Mapreduce 上运行流式 MapReduce 作业时,该作业没有成功完成。mapper.py
运行中途(我知道这是因为一路写信)stderr
。映射器被“Broken Pipe”错误中断,我可以在任务尝试失败后从系统日志中检索该错误:
这里是mapper.py
。请注意,我写信给 stderr 是为了给自己提供调试信息:
这是我在运行 mapper.py 时在 stderr 中获得的任务尝试:
基本上,循环运行了 3 次,然后突然停止,python 没有抛出任何错误。(注意:它应该输出数千行)。即使是未捕获的异常也应该出现在标准错误中。
因为 MapReduce 在我的本地计算机上运行得非常好,我猜这是 Hadoop 如何处理我从 mapper.py 打印的输出的问题。但我对问题可能是什么一无所知。
php - 我们如何从 AWS SDK for PHP 传递 Hadoop 流的参数?
我正在尝试通过 AWS SDK for PHP 添加一些工作。我能够成功启动集群并通过 API 启动新的作业流程,但在尝试创建 Hadoop Streaming 步骤时出现错误。
这是我的代码:
我收到如下错误:无效的流参数'-input s3://.... -output s3://..... -mapper s3://....../mapper.php -reducer s3://...../reducer.php"
所以不清楚如何将参数传递给 Hadoop Streaming JAR ?
官方 AWS SDK for PHP 文档不提供任何示例或文档。
可能相关的未答复线程:
hadoop - Amazon Elastic MapReduce 引导操作不起作用
我尝试了以下引导操作的组合来增加我的工作的堆大小,但它们似乎都不起作用:
什么是正确的语法?