“mapreduce”的相关标签问题

0 投票

2 回答

5840 浏览

erlang - CouchDB：Erlang 中的 map-reduce

如何在 Erlang 中为 CouchDB 编写 map-reduce 函数？我确信 Erlang 比 JavaScript 更快。

2009-07-23T08:20:28.033

0 投票

5 回答

2709 浏览

javascript - 复合 CouchDB 键的最大值是多少？

我正在使用似乎是创建连接视图的常用技巧：

我知道我可以使用以下查询来获取单个customer和所有相关Order的 s：

但是现在我已经将我的查询与我的视图代码非常紧密地联系在一起。是否有一个值可以放在我的“ 2”处，以便更清楚地说，“我希望一切都与这个客户相关联”？我想我见过

但我不确定那{}肯定会排在其他所有事情之后。

归功于 cmlenz的join 方法。

CouchDB wiki page on collation的进一步说明：

该查询startkey=["foo"]&endkey=["foo",{}]将匹配第一个元素中带有“foo”的大多数数组键，例如["foo","bar"]and ["foo",["bar","baz"]]。但是它不会匹配["foo",{"an":"object"}]

所以在排序顺序{}中很晚，但绝对不是最后一个。

javascript couchdb mapreduce

2009-07-24T22:25:19.770

0 投票

4 回答

2647 浏览

.net - 是否可以使用 .NET 为 Amazon Elastic MapReduce 编写 map/reduce 作业？

是否可以使用 .NET 语言为 Amazon Elastic MapReduce ( http://aws.amazon.com/elasticmapreduce/ ) 编写 map/reduce 作业？特别是我想使用 C#。

初步研究表明不是。上述 URL 的营销文本建议您“选择 Java、Ruby、Perl、Python、PHP、R 或 C++”，但未提及 .NET 语言。这个亚马逊线程（http://developer.amazonwebservices.com/connect/thread.jspa?messageID=136051 --“支持 C#/F# map/reducers”）明确表示“目前亚马逊弹性 MapReduce 不支持 Mono 平台或C# 或 F# 等语言。”

以上说明是做不到的。不过，我想知道是否有任何解决方法。例如，我可以为我的帐户修改 Elastic MapReduce 机器映像，并在其中安装 Mono 吗？

亚马逊常见问题解答“使用您的 Jar 所需的其他软件”（http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/index.html?CHAP_AdvancedTopics.html）和“如何使用其他文件和库”建议的替代方案使用 Mapper 或 Reducer”（http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/index.html?addl_files.html），是使 Map/Reduce 工作的第一步是在本地实例。这听起来有点低效，但也许它可以工作？

也许更明智的选择是尝试放弃 Elastic MapReduce 的便利性，并在 EC2 上手动设置我自己的 Hadoop 集群。然后我假设我可以毫无困难地安装 Mono。

.net amazon-ec2 mapreduce

2009-07-27T20:50:16.970

0 投票

2 回答

653 浏览

performance - 哪些无模式数据存储提供了良好的性能？

我最近编写了一个使用couchdb. 我喜欢 couchdb，它适合这个应用程序——它有很多动态行为，只是直接从 couchdb 中提取 JSON。能够通过浏览器上传图像非常好，并且可以轻松地对文档数据进行调整。复制也使部署变得轻而易举，因为该应用程序是一个 couchapp，部署所需的只是复制到生产服务器。

然而，对于一个我正在考虑的新应用程序（想想博客类型的东西），我想要良好的性能，这是我认为 couchdb 不强的一个领域。该应用程序将主要面向读取（我估计 90% 读取到 10 % 写入）。

哪些数据存储在单服务器方案中提供最佳性能？我很想听听人们在这方面的经历......

performance couchdb nosql mapreduce

2009-07-29T21:00:39.720

0 投票

10 回答

9725 浏览

hadoop - 流数据和 Hadoop？（不是 Hadoop 流）

我想使用 MapReduce 方法分析连续的数据流（通过 HTTP 访问），所以我一直在研究 Apache Hadoop。不幸的是，Hadoop 似乎希望以固定大小的输入文件开始作业，而不是能够在新数据到达时将其交给消费者。真的是这样吗，还是我错过了什么？是否有不同的 MapReduce 工具可以处理从打开的套接字读取的数据？可伸缩性是这里的一个问题，所以我更愿意让 MapReducer 处理混乱的并行化问题。

我玩过Cascading并且能够在通过 HTTP 访问的静态文件上运行作业，但这实际上并不能解决我的问题。我可以使用 curl 作为中间步骤，将数据转储到 Hadoop 文件系统的某个位置，并编写一个看门狗来在每次准备好新数据块时启动新作业，但这是一个肮脏的 hack；必须有一些更优雅的方式来做到这一点。有任何想法吗？

hadoop mapreduce

2009-08-02T00:24:37.937

0 投票

2 回答

1895 浏览

multithreading - Delphi 有 MapReduce 库吗？

我最近阅读了这篇很棒的文章，它简洁地解释了 Google MapReduce 的强大功能：

http://www.joelonsoftware.com/items/2006/08/01.html

在 Mastering Delphi 2009 中，Marco Cantu 展示了一个使用匿名函数的多线程 for 循环，这基本上是 MapReduce 的 Map 部分，但表示它不完整并且还有其他示例。我也隐约知道 Embarcadero 有人在开发 DTL 库，但我最近没有看到太多关于它的内容。

那么，在 Delphi 中是否有可靠的 MapReduce 实现可供使用？

我知道 Andreas Hausladen 提供了这个方便的库，如果没有通用 Map Reduce，这是构建的最佳库吗？

http://andy.jgknet.de/blog/?page_id=100

谢谢！

multithreading delphi mapreduce

2009-08-04T05:48:47.910

0 投票

7 回答

2634 浏览

wiki - 我如何获得维基百科页面的子集？

我如何获得维基百科页面的子集（比如 100MB）？我发现您可以将整个数据集作为 XML 获取，但它更像是 1 或 2 个演出；我不需要那么多。

我想尝试实现 map-reduce 算法。

话虽如此，如果我能从任何地方找到价值 100 兆的文本样本数据，那也很好。例如，Stack Overflow 数据库，如果可用的话，可能是一个不错的大小。我愿意接受建议。

编辑：任何不是种子的？我不能让那些工作。

wiki mapreduce sample-data

2009-08-24T04:26:50.120

0 投票

3 回答

10881 浏览

hadoop - 在 PIG (Hadoop) 中将输入拆分为子字符串

假设我在 Pig 中有以下输入：

我想将其转换为：

我还没有（还）找到一种方法来迭代猪拉丁语中的字符数组。我找到了 TOKENIZE 函数，但它在单词边界上分裂。那么“pig latin”可以做到这一点，还是需要Java类才能做到这一点？

hadoop mapreduce apache-pig

2009-09-09T14:42:17.010

0 投票

4 回答

2617 浏览

java - Hadoop 分布差异

有人可以概述各种可用的 Hadoop 发行版之间的各种差异：

Cloudera - http://www.cloudera.com/hadoop
雅虎- http://developer.yahoo.net/blogs/hadoop/

使用 Apache Hadoop 发行版作为基准。

是否有充分的理由在标准 Apache Hadoop 发行版上使用这些发行版之一？

java hadoop mapreduce

2009-09-11T18:33:59.610

0 投票

5 回答

8149 浏览

hadoop - OLAP 可以在 BigTable 中做吗？

过去，我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics。现在，我使用的 OLAP 多维数据集只是一个大表（好吧，它的存储比那更智能），其中每一行基本上是一个测量值或一组测量值的聚合。每个度量都有一堆维度（即哪个页面名称、用户代理、ip 等）和一堆值（即有多少浏览量、多少访问者等）。

您在这样的表上运行的查询通常采用以下形式（元 SQL）：

因此，您可以使用提到的过滤器获得所选日期的每个小时的总数。一个障碍是这些立方体通常意味着全表扫描（各种原因），这意味着您可以制作这些东西的大小（以 MiB 为单位）的实际限制。

我目前正在学习 Hadoop 等的来龙去脉。

在 BigTable 上将上述查询作为 mapreduce 运行看起来很简单：只需将“小时”作为键，在映射中过滤并通过对值求和来减少。

您能否在 BigTable 类型的系统上“实时”（即通过用户界面并且用户尽快得到他们的答案）而不是批处理模式运行我上面显示的查询（或至少具有相同的输出）？

如果不; 在 BigTable/Hadoop/HBase/Hive 等领域做这样的事情的合适技术是什么？

hadoop olap mapreduce hbase hive

2009-09-14T21:59:29.360

问题标签 [mapreduce]

Reference