问题标签 [mapreduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3420 浏览

erlang - 使用 Riak 的 Mapreduce

有没有人有可以在单个 Riak 节点上运行的 Riak 的 mapreduce 示例代码。

0 投票
2 回答
769 浏览

amazon - 在 Amazon Mapreduce 中运行的 pig 脚本中的 STREAM 关键字

我有一个猪脚本,可以激活另一个 python 程序。我能够在我自己的 hadoop 环境中这样做,但是当我在 Amazon map reduce WS 中运行我的脚本时总是失败。

日志说:

org.apache.pig.backend.executionengine.ExecException:错误 2090:处理减少计划时收到错误:''失败,退出状态:127 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce。在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer 的 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.processOnePackageOutput(PigMapReduce.java:288) 运行管道(PigMapReduce.java:347)。 PigMapReduce$Reduce.reduce(PigMapReduce.java:260) 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.reduce(PigMapReduce.java:142) 在 org.apache.hadoop.mapred.ReduceTask。在 org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2216) 运行(ReduceTask.java:321)

任何的想法?

0 投票
3 回答
5845 浏览

hadoop - Hadoop 在另一个文件中从一个文件中搜索单词

我想构建一个 hadoop 应用程序,它可以从一个文件中读取单词并在另一个文件中搜索。

如果单词存在 - 它必须写入一个输出文件 如果单词不存在 - 它必须写入另一个输出文件

我在hadoop中尝试了一些例子。我有两个问题

两个文件每个大约 200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他方法可以做到这一点?

由于hadoop的reduce阶段的输出只写入一个文件,如何将数据写入不同的文件。是否可以有一个减少阶段的过滤器来将数据写入不同的输出文件?

谢谢你。

0 投票
9 回答
826 浏览

algorithm - 语料库中的高效搜索

我有几百万个单词,我想在十亿个单词的语料库中搜索。什么是有效的方法来做到这一点。

我正在考虑使用 trie,但是是否有可用的 trie 开源实现?

谢谢

- 更新 -

让我添加一些关于究竟需要什么的更多细节。

我们有一个系统,我们抓取新闻来源并根据词的频率获取流行词。可能有一百万个单词。

我们的数据看起来像这样。

字 1 频率 1 字 2 频率 2(制表符分隔)

我们还从另一个来源获得了最受欢迎的词(10 亿),其中也包含上述格式的数据。

这是我想得到的输出。

  • 两个来源共有的词
  • 单词仅出现在我们的来源中,但不在参考来源中。
  • 单词仅出现在参考来源中,但不在我们的来源中。

我只能对上述信息使用 comm(bash 命令)来获取单词。我不知道如何使用 comm 仅与一列而不是两列进行比较。

该系统应该是可扩展的,我们希望每天都执行此操作并比较结果。我也想得到近似匹配。

所以,我正在考虑写一个地图减少工作。我打算编写如下的 map 和 reduce 函数,但我有几个问题。

我有两个问题。在 map reduce 中,我可以提供一个包含我的两个文件的目录作为输入。我不知道如何获取我从中读取单词的文件名。如何获取这些信息?如何写入不同的输出文件,因为 reduce 阶段会自动写入名为 part-xxxxx 的默认文件。如何写入不同的输出文件。

感谢您阅读本文。

0 投票
1 回答
879 浏览

hadoop - Hadoop 和小飞象的新手,如何正确排序这些操作?

考虑以下日志文​​件格式:

我们将使用 dumbo 计算 Hadoop 集群上每个数据行的平均值频率 (AVF) 。具有 m 个属性的数据点的 AVF 定义为:

所以对于第一行,avf = (1/3)*(1+2+1) ~= 1.33。异常值由低 AVF 识别。

编程问题

我们有以下伪/python代码:

问题是,我们如何将我们的数据点集插入map1map2,以及使用Hmap2 中的中间散列。如上所述H进行全局定义似乎违背了 MapReduce 概念。

0 投票
1 回答
89 浏览

parallel-processing - 处理流以查询同一数据集时的高效 MapReduce

我有一个庞大的静态数据集,并且我有一个函数可以应用于它。

f 的形式是 reduce(map(f, dataset)),所以我会使用 MapReduce 框架。但是,我不想在每个请求处分散数据(理想情况下,我想利用索引来加速 f)。有解决这种一般情况的 MapReduce 实现吗?

我已经查看了IterativeMapReduce,也许它可以完成这项工作,但似乎解决了一个稍微不同的情况,并且代码尚不可用。

0 投票
2 回答
388 浏览

java - 哪个 Map-Reduce 库和/或平台与 java 一起使用

我最近在阅读和听到一些关于云计算map-reduce技术的东西。我正在考虑使用一些算法来获得该领域的实践经验,看看现在有什么可能。

这就是我想做的事情: 我想使用一些带有内置 map reduce 功能或者没有内置支持的公共云平台(例如 Google App Engine、Google Map Reduce、Amazon ECS、Amazon Map Reduce) ,使用额外的map reduce java 库(例如Hadoop、Hive),并实现/部署一些算法。

有没有人在该领域取得了一些经验并指出了一个好的起点?或者列举一些在实践中效果很好的组合?

提前致谢!

0 投票
2 回答
2029 浏览

java - 使用 Hadoop/MapReduce 查找匹配行

我正在玩 Hadoop 并在 Ubuntu 上建立了一个两节点集群。WordCount 示例运行良好。

现在我想自己写一个MapReduce程序来分析一些日志数据(主要原因:看起来很简单,我有很多数据)

日志中的每一行都有这种格式

其中事件可以是 INIT、START、STOP、ERROR 和其他一些。我最感兴趣的是同一 UUID 的 START 和 STOP 事件之间经过的时间。

例如,我的日志包含这样的条目

我当前的线性程序读取文件,记住内存中的开始事件,并在找到相应的结束事件后将经过的时间写入文件(当前忽略具有其他事件的行,错误事件使 UUID 无效,它将也可以忽略)1

我想将此移植到 Hadoop/MapReduce 程序。但我不确定如何匹配条目。拆分/标记文件很容易,我想找到匹配项将是一个 Reduce-Class。但那会是什么样子呢?如何在 MapReduce 作业中找到数学条目?

请记住,我的主要重点是了解 Hadopo/MapReduce;欢迎链接到 Pig 和其他 Apache 程序,但我想用纯 Hadoop/MapReduce 解决这个问题。谢谢你。

1) 由于日志是从一个正在运行的应用程序中获取的,由于日志文件拆分,一些开始事件可能还没有对应的结束事件,并且会有没有开始事件的结束事件

0 投票
3 回答
801 浏览

analysis - 对 TB 级数据使用 Map Reduce 算法?

这个问题没有一个“正确”的答案。

我对在集群上以 TB 的数据运行 Map Reduce 算法很感兴趣。

我想了解更多关于上述算法的运行时间。

我应该读什么书?

我对设置 Map Reduce 集群或运行标准算法不感兴趣。我想要严格的理论处理或运行时间。

编辑:问题不在于地图减少更改运行时间。问题是——大多数算法不能很好地分布到映射减少框架。我对在 map reduce 框架上运行的算法感兴趣。

0 投票
2 回答
410 浏览

hadoop - 这种架构在 Hadoop MR 中是否可行?

Hadoop MapReduce 中是否可以使用以下架构?

使用分布式键值存储(HBase)。因此,除了值之外,还会有一个与值相关联的时间戳。Map & Reduce 任务是迭代执行的。Map,在每次迭代中都应该接受在上一次迭代中添加到存储中的值(也许是具有最新时间戳的那些?)。Reduce 应该接收 Map 的输出以及来自 store 中其键与 reduce 必须在当前迭代中处理的键匹配的对。reduce 的输出到 store。

如果可能,哪些类(例如:InputFormat、Reduce 的 run())应该被扩展,以便代替常规操作发生上述操作。如果这是不可能的,是否有任何替代方法可以实现相同的目标?