“mapreduce”的相关标签问题

0 投票

2 回答

3420 浏览

erlang - 使用 Riak 的 Mapreduce

有没有人有可以在单个 Riak 节点上运行的 Riak 的 mapreduce 示例代码。

2010-01-23T11:40:25.157

0 投票

2 回答

769 浏览

amazon - 在 Amazon Mapreduce 中运行的 pig 脚本中的 STREAM 关键字

我有一个猪脚本，可以激活另一个 python 程序。我能够在我自己的 hadoop 环境中这样做，但是当我在 Amazon map reduce WS 中运行我的脚本时总是失败。

日志说：

org.apache.pig.backend.executionengine.ExecException：错误 2090：处理减少计划时收到错误：''失败，退出状态：127 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce。在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer 的 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.processOnePackageOutput(PigMapReduce.java:288) 运行管道（PigMapReduce.java:347）。 PigMapReduce$Reduce.reduce(PigMapReduce.java:260) 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.reduce(PigMapReduce.java:142) 在 org.apache.hadoop.mapred.ReduceTask。在 org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2216) 运行（ReduceTask.java:321）

任何的想法？

amazon hadoop mapreduce apache-pig

2010-01-24T14:03:37.507

0 投票

3 回答

5845 浏览

hadoop - Hadoop 在另一个文件中从一个文件中搜索单词

我想构建一个 hadoop 应用程序，它可以从一个文件中读取单词并在另一个文件中搜索。

如果单词存在 - 它必须写入一个输出文件如果单词不存在 - 它必须写入另一个输出文件

我在hadoop中尝试了一些例子。我有两个问题

两个文件每个大约 200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他方法可以做到这一点？

由于hadoop的reduce阶段的输出只写入一个文件，如何将数据写入不同的文件。是否可以有一个减少阶段的过滤器来将数据写入不同的输出文件？

谢谢你。

hadoop mapreduce

2010-01-24T18:33:19.307

0 投票

9 回答

826 浏览

algorithm - 语料库中的高效搜索

我有几百万个单词，我想在十亿个单词的语料库中搜索。什么是有效的方法来做到这一点。

我正在考虑使用 trie，但是是否有可用的 trie 开源实现？

谢谢

- 更新 -

让我添加一些关于究竟需要什么的更多细节。

我们有一个系统，我们抓取新闻来源并根据词的频率获取流行词。可能有一百万个单词。

我们的数据看起来像这样。

字 1 频率 1 字 2 频率 2（制表符分隔）

我们还从另一个来源获得了最受欢迎的词（10 亿），其中也包含上述格式的数据。

这是我想得到的输出。

两个来源共有的词
单词仅出现在我们的来源中，但不在参考来源中。
单词仅出现在参考来源中，但不在我们的来源中。

我只能对上述信息使用 comm（bash 命令）来获取单词。我不知道如何使用 comm 仅与一列而不是两列进行比较。

该系统应该是可扩展的，我们希望每天都执行此操作并比较结果。我也想得到近似匹配。

所以，我正在考虑写一个地图减少工作。我打算编写如下的 map 和 reduce 函数，但我有几个问题。

我有两个问题。在 map reduce 中，我可以提供一个包含我的两个文件的目录作为输入。我不知道如何获取我从中读取单词的文件名。如何获取这些信息？如何写入不同的输出文件，因为 reduce 阶段会自动写入名为 part-xxxxx 的默认文件。如何写入不同的输出文件。

感谢您阅读本文。

algorithm search data-structures hadoop mapreduce

2010-01-24T22:31:35.997

0 投票

1 回答

879 浏览

hadoop - Hadoop 和小飞象的新手，如何正确排序这些操作？

考虑以下日志文件格式：

我们将使用 dumbo 计算 Hadoop 集群上每个数据行的平均值频率 (AVF) 。具有 m 个属性的数据点的 AVF 定义为：

所以对于第一行，avf = (1/3)*(1+2+1) ~= 1.33。异常值由低 AVF 识别。

编程问题

我们有以下伪/python代码：

问题是，我们如何将我们的数据点集插入map1和map2，以及使用Hmap2 中的中间散列。如上所述H进行全局定义似乎违背了 MapReduce 概念。

hadoop mapreduce

2010-01-29T09:02:03.790

0 投票

1 回答

89 浏览

parallel-processing - 处理流以查询同一数据集时的高效 MapReduce

我有一个庞大的静态数据集，并且我有一个函数可以应用于它。

f 的形式是 reduce(map(f, dataset))，所以我会使用 MapReduce 框架。但是，我不想在每个请求处分散数据（理想情况下，我想利用索引来加速 f）。有解决这种一般情况的 MapReduce 实现吗？

我已经查看了IterativeMapReduce，也许它可以完成这项工作，但似乎解决了一个稍微不同的情况，并且代码尚不可用。

parallel-processing mapreduce distributed-computing

2010-02-04T17:41:50.273

0 投票

2 回答

388 浏览

java - 哪个 Map-Reduce 库和/或平台与 java 一起使用

我最近在阅读和听到一些关于云计算和map-reduce技术的东西。我正在考虑使用一些算法来获得该领域的实践经验，看看现在有什么可能。

这就是我想做的事情： 我想使用一些带有内置 map reduce 功能或者没有内置支持的公共云平台（例如 Google App Engine、Google Map Reduce、Amazon ECS、Amazon Map Reduce），使用额外的map reduce java 库（例如Hadoop、Hive），并实现/部署一些算法。

有没有人在该领域取得了一些经验并指出了一个好的起点？或者列举一些在实践中效果很好的组合？

提前致谢！

java amazon-ec2 cloud mapreduce

2010-02-05T13:38:50.327

0 投票

2 回答

2029 浏览

java - 使用 Hadoop/MapReduce 查找匹配行

我正在玩 Hadoop 并在 Ubuntu 上建立了一个两节点集群。WordCount 示例运行良好。

现在我想自己写一个MapReduce程序来分析一些日志数据（主要原因：看起来很简单，我有很多数据）

日志中的每一行都有这种格式

其中事件可以是 INIT、START、STOP、ERROR 和其他一些。我最感兴趣的是同一 UUID 的 START 和 STOP 事件之间经过的时间。

例如，我的日志包含这样的条目

我当前的线性程序读取文件，记住内存中的开始事件，并在找到相应的结束事件后将经过的时间写入文件（当前忽略具有其他事件的行，错误事件使 UUID 无效，它将也可以忽略）¹

我想将此移植到 Hadoop/MapReduce 程序。但我不确定如何匹配条目。拆分/标记文件很容易，我想找到匹配项将是一个 Reduce-Class。但那会是什么样子呢？如何在 MapReduce 作业中找到数学条目？

请记住，我的主要重点是了解 Hadopo/MapReduce；欢迎链接到 Pig 和其他 Apache 程序，但我想用纯 Hadoop/MapReduce 解决这个问题。谢谢你。

¹⁾ 由于日志是从一个正在运行的应用程序中获取的，由于日志文件拆分，一些开始事件可能还没有对应的结束事件，并且会有没有开始事件的结束事件

java hadoop mapreduce

2010-02-05T21:22:16.620

0 投票

3 回答

801 浏览

analysis - 对 TB 级数据使用 Map Reduce 算法？

这个问题没有一个“正确”的答案。

我对在集群上以 TB 的数据运行 Map Reduce 算法很感兴趣。

我想了解更多关于上述算法的运行时间。

我应该读什么书？

我对设置 Map Reduce 集群或运行标准算法不感兴趣。我想要严格的理论处理或运行时间。

编辑：问题不在于地图减少更改运行时间。问题是——大多数算法不能很好地分布到映射减少框架。我对在 map reduce 框架上运行的算法感兴趣。

analysis mapreduce

2010-02-10T05:12:13.830

0 投票

2 回答

410 浏览

hadoop - 这种架构在 Hadoop MR 中是否可行？

Hadoop MapReduce 中是否可以使用以下架构？

使用分布式键值存储（HBase）。因此，除了值之外，还会有一个与值相关联的时间戳。Map & Reduce 任务是迭代执行的。Map，在每次迭代中都应该接受在上一次迭代中添加到存储中的值（也许是具有最新时间戳的那些？）。Reduce 应该接收 Map 的输出以及来自 store 中其键与 reduce 必须在当前迭代中处理的键匹配的对。reduce 的输出到 store。

如果可能，哪些类（例如：InputFormat、Reduce 的 run()）应该被扩展，以便代替常规操作发生上述操作。如果这是不可能的，是否有任何替代方法可以实现相同的目标？

hadoop mapreduce hbase

2010-02-14T12:59:33.600

问题标签 [mapreduce]

编程问题

Reference