问题标签 [elastic-map-reduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4629 浏览

python - Amazon Elastic MapReduce - python map 和 reduce 代码的格式或示例

也许 Hadoop 也是如此,但我只是在此处的地图示例旁边找不到编写地图和减少 python 代码的格式或示例:http: //docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/

但我找不到减少代码示例,

它和Hadoop一样吗?格式是什么,是否有任何示例?

0 投票
1 回答
2813 浏览

r - 流式传输命令失败!使用 Elastic Map Reduce/S3 和 R 时出错

我在这里关注这个例子,希望能够使用 EC2/S3/EMR/R 成功运行一些东西。 https://gist.github.com/406824

作业在 Streaming Step 上失败。以下是错误日志:

控制器:

标准错误:

标准输出:

系统日志:

0 投票
3 回答
2877 浏览

amazon-ec2 - 重复使用 Amazon Elastic MapReduce 实例

我尝试了一个简单的 Map/Reduce 任务Amazon Elastic MapReduce,只用了 3 分钟即可完成任务。是否可以重复使用同一个实例来运行另一个任务。

即使我刚刚使用该实例 3 分钟亚马逊将收取费用1 hr,所以我想使用余额 57 分钟来运行其他几个任务。

0 投票
1 回答
727 浏览

amazon-web-services - 有没有人使用 Amazon 的 Elastic Map Reduce 的 ruby​​ 客户端创建具有多个输入的工作?

通过 UI Amazon 的框架允许我通过指定多个 --input 行来创建具有多个输入的作业。例如:

-input s3n://something -input s3n://something-else

同样,到目前为止,Ruby EMR 客户端对我很有帮助:http: //aws.amazon.com/developertools/2264

但是,我正在尝试编写一个需要多个输入的夜间作业,但我似乎找不到任何方法来做到这一点。它不会让我传递多个 -input 参数,并且当我使用 --arg 或 --args 时,创建的作业不包含 -input 行。就好像它正在剥离它一样。

有没有人成功地使用这个工具来达到这个目的?

0 投票
1 回答
7468 浏览

java - java.lang.RuntimeException:尝试在 Elastic MapReduce 上运行 Jar 作业时出现 java.lang.ClassNotFoundException

我应该改变什么来修复以下错误:

我正在尝试在 Elastic Mapreduce 上开始工作,并且每次都会崩溃并显示以下消息:

声明了类NewMaxTemperatureMapper并且我已经检查过,它包含在 jar 中,它位于 s3 中。这是所有应用程序类的代码:

新MaxTemperature.java:

NewMaxTemperatureReducer.java:

NewMaxTemperatureMapper.java:

我已经在此处制作了导致此崩溃的 jar 文件:下载 jar

0 投票
1 回答
89 浏览

java - 在 hadoop 中进行集合成员资格测试的最佳方法是什么?

我正在使用 hadoop 为我的应用程序处理一系列分析记录。我想根据我在他们的流中看到的事件对用户进行分类,然后在稍后再次迭代流时使用该信息。例如,假设我想为所有从未激活我的应用程序的用户生成数据。

作为我的第一轮减少的一部分,我可以通过在流上迭代一次来计算出谁永远不会激活。

问题是,我将“用户 X 从未激活”的数据放在哪里,以便下次在第二轮映射器中遍历流时,我可以查找该事实?我有一些想法,但我不确定哪个是正确的 hadoop 方式:

  • 从我的第一轮减速器中输出一个包含用户列表的辅助文件,在我的第二轮中读取它——如何避免将整个文件读入内存,如何处理来自多个前端减速器的多个辅助文件(有没有排序/组合边文件的好方法)?
  • 在我的 reducer 中将用户的所有事件缓存在内存中,这样我就可以在将它们输出到磁盘之前将它们全部标记为“未激活”——感觉有点恶心。

其中一个是“正确的方式”吗,还有另一种我想念的方式吗?

我正在使用 AWS Elastic MapReduce。

0 投票
1 回答
3115 浏览

java - 如何告诉hadoop为单个映射器作业分配多少内存?

我创建了一个 Elastic MapReduce 作业,并且正在尝试优化其性能。

目前我正在尝试增加每个实例的映射器数量。我是通过 mapred.tasktracker.map.tasks.maximum=X

每次我尝试将每个小实例的 X 设置为 2 时,初始化都会失败,由此我得出结论,hadoop 为每个映射任务分配了 800m 的内存。对我来说,这似乎太过分了。我希望它是400m的顶部。

如何告诉 hadoop 为每个地图任务使用更少的内存?

0 投票
3 回答
801 浏览

amazon-web-services - 在 AWS 上通过 SSH 连接到 Elastic MapReduce JobFlow 时出错

按照教程说明在 EMR 中连接到我的 JobFlow 时,我输入以下内容:

并得到这个错误:

我已经能够很好地运行其他 elastic-mapreduce 命令来创建流等,所以我假设流的实际主实例需要安全设置,但本教程中没有任何内容解释如何配置它(毕竟,我首先需要通过 SSH 进入它来进行配置!)

0 投票
1 回答
1068 浏览

hadoop - 从 SSH 中直接调用 Hadoop 启动作业

我已经能够很好地使用 elastic-mapreduce ruby​​ 库启动工作流程。现在我有一个实例在它的工作完成后仍然“活着”。我已经登录到使用 SSH 并想开始另一项工作,但我的各种尝试都失败了,因为 hadoop 找不到输入文件。我尝试将输入文件存储在本地和 S3 上。

如何直接从我的 SSH 会话中创建新的 hadoop 作业?

我尝试的错误:

(第一次尝试使用本地文件存储,我是通过使用 SFTP 上传文件创建的)

(使用 s3 的第二次尝试):

0 投票
2 回答
2306 浏览

hadoop - 将数据传入和传出 Elastic MapReduce HDFS

我编写了一个 Hadoop 程序,该程序需要在 HDFS 中进行特定布局,之后我需要将文件从 HDFS 中取出。它适用于我的单节点 Hadoop 设置,我渴望让它在 Elastic MapReduce 中的 10 个节点上运行。

我一直在做的是这样的:

这是异步的,但是当工作完成后,我可以这样做

所以虽然这种方法有效,但它很笨重,不是我想要的。有没有更清洁的方法来做到这一点?

谢谢!