问题标签 [elastic-map-reduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
381 浏览

solr - 需要关于使用 Map/Reduce 创建 solr 索引的建议

我对 Map/Reduce 世界很陌生,并试图评估最佳选择,以确定是否可以利用它在 Solr 中创建索引。目前,我正在使用常规爬网来获取数据并直接在 Solr 中对其进行索引。这工作没有任何问题。

但展望未来,我们需要访问 Amazon S3 中的大量数据。目前 S3 中存储了大约 500 万条数据,需要对其进行索引。我正在考虑使用 Amazon Elastic Map/Reduce (EMR) 直接从 S3 访问内容,然后在 Solr 中创建索引。数据结构简单,url(唯一)是S3 key,value是一个XML文件。url 将用作 Solr 中的 doc id,而 XML 数据的相关部分将作为字段存储在 Solr 索引中。

我的问题是 EMR 是否是正确的方法?任务是从 S3 访问数据,从 XML 中提取某些元素,进行一些处理,然后调用 Solr API 来生成索引。在索引数据之前,处理部分需要几个类,可能是命令模式链。这是可以实现的吗?Doo 我需要一个减速器还是可以使用映射器来完成这个过程?如果需要减速器,它的范围是什么?目前,我有一个存储数据的索引。

对此的任何指示将不胜感激。

谢谢

0 投票
3 回答
3959 浏览

java - 如何等待 Java 应用程序中的 Elastic MapReduce 作业流程完成?

最近我一直在使用 Amazon Web Services (AWS),我注意到关于这个主题的文档并不多,所以我添加了我的解决方案。

我正在使用 Amazon Elastic MapReduce (Amazon EMR) 编写应用程序。计算结束后,我需要对他们创建的文件执行一些工作,因此我需要知道工作流程何时完成工作。

您可以通过以下方式检查您的工作流程是否已完成:

您还可以在其中查找特定的作业 ID,DescribeJobFlowsRequest然后检查该作业是否已完成或失败。

我希望它会帮助别人。

0 投票
1 回答
937 浏览

hadoop - AWS Elastic Map Reduce:输出到 SimpleDB

将 Elastic Map Reduce 输出导入 SimpleDB 的最有效方法是什么?

我知道我可以将结果输出到 S3,下载它们,然后让脚本解析结果并插入 SimpleDB。

但是有没有一种更简单/更快的方法可以直接将 EMR 输出插入 SimpleDB(出于时间和效率的原因)?

0 投票
1 回答
135 浏览

elastic-map-reduce - Elastic MapReduce 失败:1:语法错误:“(”意外

我正在尝试运行在我的 x86 Debian Squeeze 盒上编译的本机二进制文件(以匹配 Amazon AMI),但我一直收到这个奇怪的错误

/mnt/var/lib/hadoop/mapred/taskTracker/hadoop/jobcache/job_201206011019_0001/attempt_201206011019_0001_m_000000_0/work/./word-count: 1: Syntax error: "(" unexpected

令人费解的是,字数统计是二进制可执行文件。有人知道系统的哪个部分在这里抱怨吗?操作系统是否试图在二进制文件的开头寻找一些魔法字节但没有找到它们?

0 投票
1 回答
1710 浏览

hadoop - Amazon EMR:在数据节点上配置存储

我正在使用 Amazon EMR,并且能够正常运行大多数作业。当我开始在 EMR 集群中加载和生成更多数据时,我遇到了问题。集群存储空间不足。

每个数据节点都是一个 c1.medium 实例。根据此处此处的链接,每个数据节点应带有 350GB 的实例存储。通过 ElasticMapReduce Slave 安全组,我能够在我的 AWS 控制台中验证 c1.medium 数据节点正在运行并且是实例存储。

当我在 namenode 上运行 hadoop dfsadmin -report 时,每个数据节点都有大约 10GB 的存储空间。通过运行 df -h 进一步验证了这一点

如何配置我的数据节点以使用完整的 350GB 存储启动?有没有办法使用引导操作来做到这一点?

0 投票
1 回答
165 浏览

elastic-map-reduce - 如何将 Hadoop Streaming -file 标志传递给 Amazon ElasticMapreduce?

-file标志允许您将可执行文件打包为作业提交的一部分,从而允许您运行 MapReduce,而无需先手动将可执行文件复制到 S3。有没有办法将-file标志与亚马逊的 elastic-mapreduce 命令一起使用?如果没有,上传要运行的二进制文件的最简单方法是什么?

0 投票
3 回答
434 浏览

elastic-map-reduce - 如何通过 Elastic MapReduce 使用外部数据

来自亚马逊的 EMR 常见问题解答:

问:我可以从 Internet 或 Amazon S3 以外的其他地方加载我的数据吗?

是的。您的 Hadoop 应用程序可以从 Internet 上的任何位置或从其他 AWS 服务加载数据。请注意,如果您从 Internet 加载数据,将收取 EC2 带宽费用。Amazon Elastic MapReduce 还提供对 DynamoDB 中数据的基于 Hive 的访问。

从外部(非 S3)源加载数据的规范是什么?这个选项似乎缺乏资源,并且似乎没有以任何形式记录。

0 投票
2 回答
1117 浏览

ruby - 您能否以编程方式轻松控制 Elastic Mapreduce 作业?

有一个用 ruby​​ 编写的命令行客户端,用作标准。但是,它不在 1.9 中运行。ruby 也有一个非常好的 aws-sdk,但它不支持 EMR。有没有好的选择?

0 投票
3 回答
1135 浏览

amazon-s3 - 用于分析 s3 日志的 Amazon Elastic Map Reduce

我正在使用 EMR 来分析 Web nginx 日志。但是我需要处理日志,使其可以分为行和列,以便于查询。因此,我按以下方式制作了两个表 - rawlog、processedlog:

并在 hive 中添加了一个可以进行转换的 ruby​​ 脚本,脚本如下:

现在,当我在 hive 上使用以下命令运行作业时:

我收到以下错误:

有人可以告诉我有什么问题吗?

0 投票
2 回答
1878 浏览

r - 创建一个大的协方差矩阵

我需要创建约 110 个双精度为 19347 x 19347 的协方差矩阵,然后将它们加在一起。

这本身并不是很困难,对于较小的矩阵,以下代码可以正常工作。

为了节省内存,我不计算每个单独的矩阵,而是在遍历每个文件时将它们加在一起。

问题是当我在需要使用的真实数据上运行它时,它花费的时间太长了。实际上没有那么多数据,但我认为这是一项 CPU 和内存密集型工作。因此运行它约 10 小时不会计算结果。

我曾考虑尝试使用 Map Reduce (AWS EMR),但我得出的结论是,我认为这不是 Map Reduce 问题,因为它不是大数据问题。但是,如果我做错了,这是我一直在使用的映射器和减速器的代码。

谁能建议如何解决这个问题?

提前致谢

编辑

感谢下面一些评论者的大力帮助,我已经修改了代码,因此效率更高。

这是我正在尝试处理的文件的示例。

在运行程序时,每个文件仍需要约 10 分钟。有人对如何加快速度有任何建议吗?

我有 8gb 的内存,当程序运行时,R 只使用了 4.5gb 的内存,并且有少量空闲。

我正在运行 Mac OS X Snow Leopard 和 R 64bit v. 2.15