问题标签 [elastic-map-reduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
190 浏览

hadoop - 使用 Ganglia 指标对 Amazon Elastic Mapreduce 程序进行哪些好的测量比较?

我已经看到在网格计算项目上实施和分析 Ganglia 监控,但还没有阅读有关 Amazon Elastic Mapreduce 程序的任何过程。Ganglia 有很多指标,但是如果我们想写一份报告来分析我们的弹性 mapreduce 程序的性能,需要关注哪些重要指标呢?有什么好的研究论文或文章可以参考吗?在一篇与弹性 mapreduce 和神经节度量相关的论文中讨论哪些重要概念?

我已经用python编写了我的程序,想在elastic mapreduce上运行它,然后想使用ganglia对其进行监控,但我想从ganglia监控结果中得出一些结论,并希望能够比较和参考任何文章或以前做过的研究类似于这种用法。

0 投票
1 回答
152 浏览

amazon-ec2 - EC2 作业流失败

我有一个要在 s3 上运行的 jar 文件 MapReduce。它需要两个参数,一个输入目录和一个输出文件。

所以我使用 elastic-mapreduce ruby​​ cmd line 工具尝试了以下命令:

这失败并出现错误

线程“主”java.lang.ClassNotFoundException 中的异常:s3n://this/bucket/com/data/

所以我在各自的 args 之后使用 --input 和 --output 尝试了它。这也失败了,因为找不到 --input 类的错误(似乎它无法破译 --input 而不是它无法破译输入后的参数)

这似乎是一个基本的事情,但我无法让它工作。任何帮助深表感谢。谢谢。

0 投票
4 回答
4486 浏览

bash - 使用 Amazon MapReduce/Hadoop 进行图像处理

我有一个项目需要我处理大量(1000-10000)大(100MB 到 500MB)图像。我正在做的处理可以通过 Imagemagick 完成,但我希望在 Amazon 的 Elastic MapReduce 平台(我相信它使用 Hadoop 运行)上实际进行此处理。

在我找到的所有示例中,它们都处理基于文本的输入(我发现 Word Count 样本十亿次)。我找不到关于 Hadoop 的这种工作的任何信息:从一组文件开始,对每个文件执行相同的操作,然后将新文件的输出写成它自己的文件。

我很确定这可以通过这个平台完成,并且应该能够使用 Bash 完成;我认为我不需要费心去创建一个完整的 Java 应用程序或其他东西,但我可能是错的。

我不是要求有人给我代码,但如果有人有示例代码或处理类似问题的教程链接,将不胜感激......

0 投票
1 回答
542 浏览

amazon-web-services - 在 AWS EMR 中强制使用一个减速器

如何确保我的 EMR Streaming 作业只有 reducer?当我创建新的 Jobflow 时,有什么方法可以从 Web 前端执行此操作吗?

0 投票
1 回答
477 浏览

r - R segue createCluster() 问题

我正在尝试在 EC2 上创建一个集群。我有一个帐户设置并通过 AWS 验证。我已成功下载并安装了segue软件包和相关软件包并设置了我的 AWS 凭证。当我尝试创建集群并得到以下信息时,我的问题就开始了:

有任何想法吗?

0 投票
1 回答
1086 浏览

hadoop - 在 Elastic Map Reduce 上使用分布式缓存和 Pig

我正在尝试在 Amazon 的 Elastic Map Reduce 上运行我的 Pig 脚本(它使用 UDF)。我需要使用我的 UDF 中的一些静态文件。

我在我的 UDF 中做了这样的事情:

我已将文件存储在我的 s3 存储桶 /path/to/myfile.txt

但是,在运行我的 Pig 作业时,我看到了一个异常:

Got an exception java.io.FileNotFoundException: ./myfile.txt (No such file or directory)

所以,我的问题是:在亚马逊的 EMR 上运行 pig 脚本时如何使用分布式缓存文件?

编辑:我发现 pig-0.6 与 pig-0.9 不同,它没有名为 getCacheFiles() 的函数。亚马逊不支持 pig-0.6,所以我需要找出一种不同的方法来在 0.6 中获得分布式缓存工作

0 投票
2 回答
206 浏览

apache - 探索 Hadoop 代码

我想了解 Hadoop 不仅仅是一个黑匣子。我想探索 Hadoop 代码本身。如何不从主干下载捆绑包,我应该从哪里开始?任何帮助都会非常有帮助谢谢 Shujaat

0 投票
1 回答
1008 浏览

mysql - 将数据从蜂巢中取出并输入 mysql @ AWS?

我很想使用 Sqoop,但不认为仅仅为此而在 ElasticMapReduce(我真的很喜欢)上运行 Cloudera 堆栈@AWS 是不值得的。

我目前的想法只是将我需要的数据写入到@S3 的外部表中,然后编写脚本将其导入mysql。亚马逊有一些 SimpleDB 的东西(例子),但我也不确定那条路线?对生活在 S3 的数据很好,只是想知道是否有人有更好的主意。

谢谢!

0 投票
2 回答
113 浏览

amazon-web-services - 无法获得 --supported-products 选项以与 Amazon 的用于 Karmasphere 分析的 elastic-mapreduce Ruby 客户端一起使用

我正在尝试将 Karmaspere Analytics 与 AWS 一起使用。这个页面说使用 --supported-products 与 ruby​​ 客户端。但是,当我运行命令时(与在该页面上输入的完全相同),我收到错误“错误:无效选项:--supported-products”

我正在使用从http://aws.amazon.com/developertools/2264下载的版本 2010-11-11 (该页面说它最后更新于 2011 年 8 月 11 日,但正在运行 ./elastic-mapreduce --version I获取“版本 2010-11-11”作为输出)

谢谢!

0 投票
3 回答
6272 浏览

hadoop - Comparing two large datasets using a MapReduce programming model

Let's say I have two fairly large data sets - the first is called "Base" and it contains 200 million tab delimited rows and the second is call "MatchSet" which has 10 million tab delimited rows of similar data.

Let's say I then also have an arbitrary function called Match(row1, row2) and Match() essentially contains some heuristics for looking at row1 (from MatchSet) and comparing it to row2 (from Base) and determining if they are similar in some way.

Let's say the rules implemented in Match() are custom and complex rules, aka not a simple string match, involving some proprietary methods. Let's say for now Match(row1,row2) is written in psuedo-code so implementation in another language is not a problem (though it's in C++ today).

In a linear model, aka program running on one giant processor - we would read each line from MatchSet and each line from Base and compare one to the other using Match() and write out our match stats. For example we might capture: X records from MatchSet are strong matches, Y records from MatchSet are weak matches, Z records from MatchSet do not match. We would also write the strong/weak/non values to separate files for inspection. Aka, a nested loop of sorts:

I've started considering Hadoop streaming as a method for running these comparisons as a batch job in a short amount of time. However, I'm having a bit of a hardtime getting my head around the map-reduce paradigm for this type of problem.

I understand pretty clearly at this point how to take a single input from hadoop, crunch the data using a mapping function and then emit the results to reduce. However, the "nested-loop" approach of comparing two sets of records is messing with me a bit.

The closest I'm coming to a solution is that I would basically still have to do a 10 million record compare in parallel across the 200 million records so 200 million/n nodes * 10 million iterations per node. Is that that most efficient way to do this?