问题标签 [mapreduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5840 浏览

erlang - CouchDB:Erlang 中的 map-reduce

如何在 Erlang 中为 CouchDB 编写 map-reduce 函数?我确信 Erlang 比 JavaScript 更快。

0 投票
5 回答
2709 浏览

javascript - 复合 CouchDB 键的最大值是多少?

我正在使用似乎是创建连接视图的常用技巧:

我知道我可以使用以下查询来获取单个customer和所有相关Order的 s:

但是现在我已经将我的查询与我的视图代码非常紧密地联系在一起。是否有一个值可以放在我的“ 2”处,以便更清楚地说,“我希望一切都与这个客户相关联”?我想我见过

但我不确定那{}肯定排在其他所有事情之后。

归功于 cmlenz的join 方法。

CouchDB wiki page on collat​​ion的进一步说明:

该查询startkey=["foo"]&endkey=["foo",{}]将匹配第一个元素中带有“foo”的大多数数组键,例如["foo","bar"]and ["foo",["bar","baz"]]。但是它不会匹配["foo",{"an":"object"}]

所以在排序顺序{}很晚,但绝对不是最后一个

0 投票
4 回答
2647 浏览

.net - 是否可以使用 .NET 为 Amazon Elastic MapReduce 编写 map/reduce 作业?

是否可以使用 .NET 语言为 Amazon Elastic MapReduce ( http://aws.amazon.com/elasticmapreduce/ ) 编写 map/reduce 作业?特别是我想使用 C#。

初步研究表明不是。上述 URL 的营销文本建议您“选择 Java、Ruby、Perl、Python、PHP、R 或 C++”,但未提及 .NET 语言。这个亚马逊线程(http://developer.amazonwebservices.com/connect/thread.jspa?messageID=136051 --“支持 C#/F# map/reducers”)明确表示“目前亚马逊弹性 MapReduce 不支持 Mono 平台或C# 或 F# 等语言。”

以上说明是做不到的。不过,我想知道是否有任何解决方法。例如,我可以为我的帐户修改 Elastic MapReduce 机器映像,并在其中安装 Mono 吗?

亚马逊常见问题解答“使用您的 Jar 所需的其他软件”(http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/index.html?CHAP_AdvancedTopics.html)和“如何使用其他文件和库”建议的替代方案使用 Mapper 或 Reducer”(http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/index.html?addl_files.html),是使 Map/Reduce 工作的第一步是在本地实例。这听起来有点低效,但也许它可以工作?

也许更明智的选择是尝试放弃 Elastic MapReduce 的便利性,并在 EC2 上手动设置我自己的 Hadoop 集群。然后我假设我可以毫无困难地安装 Mono。

0 投票
2 回答
653 浏览

performance - 哪些无模式数据存储提供了良好的性能?

我最近编写了一个使用couchdb. 我喜欢 couchdb,它适合这个应用程序——它有很多动态行为,只是直接从 couchdb 中提取 JSON。能够通过浏览器上传图像非常好,并且可以轻松地对文档数据进行调整。复制也使部署变得轻而易举,因为该应用程序是一个 couchapp,部署所需的只是复制到生产服务器。

然而,对于一个我正在考虑的新应用程序(想想博客类型的东西),我想要良好的性能,这是我认为 couchdb 不强的一个领域。该应用程序将主要面向读取(我估计 90% 读取到 10 % 写入)。

哪些数据存储在单服务器方案中提供最佳性能?我很想听听人们在这方面的经历......

0 投票
10 回答
9725 浏览

hadoop - 流数据和 Hadoop?(不是 Hadoop 流)

我想使用 MapReduce 方法分析连续的数据流(通过 HTTP 访问),所以我一直在研究 Apache Hadoop。不幸的是,Hadoop 似乎希望以固定大小的输入文件开始作业,而不是能够在新数据到达时将其交给消费者。真的是这样吗,还是我错过了什么?是否有不同的 MapReduce 工具可以处理从打开的套接字读取的数据?可伸缩性是这里的一个问题,所以我更愿意让 MapReducer 处理混乱的并行化问题。

我玩过Cascading并且能够在通过 HTTP 访问的静态文件上运行作业,但这实际上并不能解决我的问题。我可以使用 curl 作为中间步骤,将数据转储到 Hadoop 文件系统的某个位置,并编写一个看门狗来在每次准备好新数据块时启动新作业,但这是一个肮脏的 hack;必须有一些更优雅的方式来做到这一点。有任何想法吗?

0 投票
2 回答
1895 浏览

multithreading - Delphi 有 MapReduce 库吗?

我最近阅读了这篇很棒的文章,它简洁地解释了 Google MapReduce 的强大功能:

http://www.joelonsoftware.com/items/2006/08/01.html

在 Mastering Delphi 2009 中,Marco Cantu 展示了一个使用匿名函数的多线程 for 循环,这基本上是 MapReduce 的 Map 部分,但表示它不完整并且还有其他示例。我也隐约知道 Embarcadero 有人在开发 DTL 库,但我最近没有看到太多关于它的内容。

那么,在 Delphi 中是否有可靠的 MapReduce 实现可供使用?

我知道 Andreas Hausladen 提供了这个方便的库,如果没有通用 Map Reduce,这是构建的最佳库吗?

http://andy.jgknet.de/blog/?page_id=100

谢谢!

0 投票
7 回答
2634 浏览

wiki - 我如何获得维基百科页面的子集?

我如何获得维基百科页面的子集(比如 100MB)?我发现您可以将整个数据集作为 XML 获取,但它更像是 1 或 2 个演出;我不需要那么多。

我想尝试实现 map-reduce 算法。

话虽如此,如果我能从任何地方找到价值 100 兆的文本样本数据,那也很好。例如,Stack Overflow 数据库,如果可用的话,可能是一个不错的大小。我愿意接受建议。

编辑:任何不是种子的?我不能让那些工作。

0 投票
3 回答
10881 浏览

hadoop - 在 PIG (Hadoop) 中将输入拆分为子字符串

假设我在 Pig 中有以下输入:

我想将其转换为:

我还没有(还)找到一种方法来迭代猪拉丁语中的字符数组。我找到了 TOKENIZE 函数,但它在单词边界上分裂。那么“pig latin”可以做到这一点,还是需要Java类才能做到这一点?

0 投票
4 回答
2617 浏览

java - Hadoop 分布差异

有人可以概述各种可用的 Hadoop 发行版之间的各种差异:

使用 Apache Hadoop 发行版作为基准。

是否有充分的理由在标准 Apache Hadoop 发行版上使用这些发行版之一?

0 投票
5 回答
8149 浏览

hadoop - OLAP 可以在 BigTable 中做吗?

过去,我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics。现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储比那更智能),其中每一行基本上是一个测量值或一组测量值的聚合。每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等)。

您在这样的表上运行的查询通常采用以下形式(元 SQL):

因此,您可以使用提到的过滤器获得所选日期的每个小时的总数。一个障碍是这些立方体通常意味着全表扫描(各种原因),这意味着您可以制作这些东西的大小(以 MiB 为单位)的实际限制。

我目前正在学习 Hadoop 等的来龙去脉。

在 BigTable 上将上述查询作为 mapreduce 运行看起来很简单:只需将“小时”作为键,在映射中过滤并通过对值求和来减少。

您能否在 BigTable 类型的系统上“实时”(即通过用户界面并且用户尽快得到他们的答案)而不是批处理模式运行我上面显示的查询(或至少具有相同的输出)?

如果不; 在 BigTable/Hadoop/HBase/Hive 等领域做这样的事情的合适技术是什么?