问题标签 [mapreduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1862 浏览

hadoop - mapreduce中间键排序的网络带宽瓶颈?

我一直在学习 mapreduce 算法以及它如何可能扩展到数百万台机器,但我不明白映射阶段之后中间键的排序如何扩展,因为会有:

1,000,000 x 1,000,000

:潜在的机器相互通信中间结果的小键/值对?这不是瓶颈吗?

0 投票
1 回答
77 浏览

mapreduce - map-reduce 操作的最终结果是否被索引?

我试图找出如何迭代 map reduce 操作的最终结果,所以我猜 map reduce 结果中必须有某种索引?

0 投票
3 回答
779 浏览

language-agnostic - Map Reduce 框架/基础设施

Map Reduce 是一种最近似乎受到很大关注的模式,我开始在我的一个专注于事件处理管道(iPhone Accelerometer 和 GPS 数据)的项目中看到它。我需要为这个项目构建很多基础设施,实际上它超过了与之交互的逻辑代码 2 倍。我在 EventProcessors(带有输入缓冲区和输出缓冲区、计时等)、EventListeners、聚合器和分阶段管道的位置构建了一些组件。

这让我想到了 map reduce 所需的“常见”基础设施是什么。由于我经常使用 .Net,我可以看到框架和语言结构中内置的 map reduce 基础设施。函数式语言本身就支持这种范式。似乎每种语言都可以与 map reduce 一起使用。甚至还有围绕这个概念构建的语言(例如 Go)。

Apache Hadoop将 Map-Reduce 引入 Java。谷歌已经申请了 map-reduce 框架的专利。他们提供什么样的基础设施来启用 map reduce?函数式语言中用于实现 map reduce 的结构是什么?map-reduce 框架需要/应该提供什么?

0 投票
3 回答
3765 浏览

javascript - 在 CouchDB 中的哈希数组上映射/减少

我正在寻找一个 map/reduce 函数来计算设计文档中的状态。您可以在下面看到我当前数据库中的示例文档。

我想摆脱status密钥,而是根据 url 的状态计算它。我当前by_status的视图如下所示:

我尝试了一些东西,但实际上没有任何效果。现在我的Map Function样子是这样的:

和我的Reduce Function

结果是我到处都被检索到,这绝对是不对的。

我试图缩小问题范围,似乎value没有数组,当我使用以下内容时,我Reduce Function到处都得到长度 1,这是不可能的,因为我的数据库中有 12 个文档,每个文档包含 20 到 200 个 url

替代文字 http://img.skitch.com/20100316-qeawxgd5pru8d5i6bprygcsmhf.jpg

我究竟做错了什么?(我知道我想让你为我写代码,我很内疚,但现在我在从数据库中获取数据后用 ruby​​ 计算状态。如果已经从数据库中获取了正确的数据,那就太好了数据库)

0 投票
1 回答
251 浏览

mapreduce - 简单 MAP Reduce API 的定义

我正在用 Java、Erlang 和 Ruby 开发一个分布式处理 API。我可以包含哪些基本命令,我可以从中构建 mapreduce、流水线以及所有最常用的并行算法。

0 投票
2 回答
269 浏览

couchdb - How can I get a view of favorite user documents by user in Couchdb map/reduce?

My Couchdb database as a main document type that looks something like:

There is another type of document that stores user information. I want users to be able to tag documents as favorites. Different users can save the same or different documents as favorites. My idea was to introduce a favorite document to track this something like:

It's easy enough to create a view with user_id as the key to get a list of their favorite doc IDs. E.g:

However I want to list of favorites to display the user_id, doc_id and title from the document. So output something like:

0 投票
14 回答
88351 浏览

hadoop - 在 Hadoop 中链接多个 MapReduce 作业

在您应用 MapReduce 的许多实际情况中,最终算法最终是几个 MapReduce 步骤。

即 Map1 、 Reduce1 、 Map2 、 Reduce2 等。

因此,您可以将最后一个 reduce 的输出用作下一个 map 的输入。

一旦管道成功完成,中间数据是您(通常)不想保留的东西。此外,由于这些中间数据通常是某种数据结构(如“地图”或“集合”),因此您不希望在写入和读取这些键值对时付出太多努力。

在 Hadoop 中推荐的方法是什么?

是否有一个(简单的)示例显示如何以正确的方式处理这些中间数据,包括之后的清理?

0 投票
3 回答
1382 浏览

amazon-web-services - Amazon Elastic Map Reduce - 保持服务器存活?

我正在测试 EMR 中的工作,每次测试都需要很长时间才能启动。有没有办法让 Amazon EMR 中的服务器/主节点保持活动状态?我知道这可以通过 API 完成。但是,我想知道这是否可以在 aws 控制台中完成?

0 投票
3 回答
7400 浏览

hadoop - 如何使用 Map/Reduce 选择随机(小)数据样本?

我想编写一个 map/reduce 作业,以根据行级条件从大型数据集中选择多个随机样本。我想尽量减少中间键的数量。

伪代码:

你做过这样的事情吗?有没有众所周知的算法?

包含连续行的样本也足够好。

谢谢。

0 投票
1 回答
862 浏览

postgresql - OpenStreetMap 和 Hadoop

我需要一些关于 Hadoop 和 OpenStreetMap 的周末项目的想法。

我可以在我的 EBS 卷中使用 OpenStreetMap 快照访问 AWS EC2 实例。OpenStreetMap 数据位于 PostgreSQL 数据库中。

可以在 OpenStreetMap 数据上运行什么样的 MapReduce 函数,假设我可以将它们导出为 xml 格式,然后放入 HDFS 中?

换句话说,我现在脑筋急转弯,想不出什么样的 MapReduce 操作可以从 OpenStreetMap xml 中提取有价值的见解?

(即提取所有指定为公园或高尔夫球场的地方。但这只需执行一次,而不是连续执行)

非常感谢