问题标签 [mapreduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
2568 浏览

.net - CouchDB - .NET 或 Mono 等效技术

是否有任何使用 .NET 或 Mono 的活动“基于文档”的数据库项目?类似于 CouchDB、SimpleDB、LotusNotes 等的东西……更喜欢开源。

我认为 JScript.NET 技术可用于存储 JSON 文档的 Map 和 Reduce 函数。

0 投票
3 回答
9381 浏览

c# - Windows服务器上的Hadoop

我正在考虑使用 hadoop 在我现有的 windows 2003 服务器上处理大型文本文件(大约 10 台四核机器和 16gb 的 RAM)

问题是:

  1. 有没有关于如何在 Windows 上配置 hadoop 集群的好教程?

  2. 有什么要求?java + cygwin + sshd ?还要别的吗?

  3. HDFS,它在 Windows 上玩得好吗?

  4. 我想在流模式下使用 hadoop。在 C# 中开发我自己的映射器/减速器有什么建议、工具或技巧吗?

  5. 您使用什么来提交和监控作业?

谢谢

0 投票
5 回答
389 浏览

c++ - 在哪里寻找贡献者?

我最近遇到了一个不那么典型的编程问题。我在哪里寻找贡献者?我正在扩展一个已经存在的项目 Hypertable,并且我正在寻找一两个人来帮助实施一些东西。我正在处理的项目的扩展是一个 MapReduce 框架,一旦完成,它将完成完全开源的谷歌堆栈替代方案。

您对在哪里寻求帮助有什么建议吗?

0 投票
3 回答
721 浏览

couchdb - 在 CouchDB 上实现用户评分/收藏

我正在考虑将 CouchDB 用于即将推出的网站,但就如何为该网站实施用户评分系统而言,我有点困惑。基本上,每个内容项都可以由给定用户评分。在 CouchDB 模型中,哪种方式最有意义?我认为最干燥和最合乎逻辑的方法是拥有 3 种不同的文档类型,内容、用户和一个看起来像这样的 user_rating 文档。

然后,我将创建一个视图,其中地图是由内容文档 id 键入的所有内容文档和 user_rating 文档的集合,reduce 计算评级的平均值并返回由内容文档 id 键入的内容文档。

这是最好的方法吗?我还没有找到很多关于 CouchDB 最佳实践的资源,所以我不太确定所有这些东西。

我的结论:下面接受的答案(我几乎要实现的)确实有效,但请注意,文档需要由内容文档 ID 键入,这使得基于其他文档属性的高级查询很麻烦。我将回到 SQL 来满足我在这个应用程序中的需求。

0 投票
2 回答
332 浏览

c++ - How to easily apply a function to a collection in C++

I'm storing images as arrays, templated based on the type of their elements, like Image<unsigned> or Image<float>, etc. Frequently, I need to perform operations on these images; for example, I might need to add two images, or square an image (elementwise), and so on. All of the operations are elementwise. I'd like get as close as possible to writing things like:

and even better, things like

or

Now, I obviously can't exactly do that; I've written something so that I can call:

but I can't seem to figure out a generic way for it to detect the return type of the function/function object passed, so my ComplexCombine example above is out; also, I have to write a new one for each number of arguments I'd like to pass (which seems inevitable).

Any thoughts on how to achieve this (with as little boilerplate code as possible)?

0 投票
8 回答
11952 浏览

parallel-processing - mapreduce 可以解决哪些类型的问题?

是否有可用的理论分析来描述 mapreduce 可以解决什么样的问题?

0 投票
8 回答
2616 浏览

hadoop - AWS 上的 MapReduce

有人在 AWS 上玩过 MapReduce 吗?有什么想法吗?执行情况如何?

0 投票
2 回答
206 浏览

hadoop - org.apache.hadoop.mapred.Mapper 中的“key K1”有什么用?

我正在学习 Apache Hadoop,并且正在查看 WordCount 示例org.apache.hadoop.examples.WordCount。我已经理解这个例子,但是我可以看到变量LongWritable 键没有用于

这个变量有什么用?有人可以给我一个简单的例子吗?谢谢

0 投票
3 回答
3298 浏览

configuration - Hadoop:从 HDFS 映射/减少

我可能错了,但是我在 Apache Hadoop 中看到的所有(?)示例都将存储在本地文件系统上的文件(例如 org.apache.hadoop.examples.Grep)作为输入

有没有办法在 Hadoop 文件系统 (HDFS) 上加载和保存数据?例如,我在 HDFS 上使用了一个名为“stored.xls”的制表符分隔文件hadoop-0.19.1/bin/hadoop dfs -put ~/local.xls stored.xls。我应该如何配置 JobConf 来阅读它?

谢谢 。

0 投票
3 回答
1898 浏览

storage - 实施大规模日志文件分析

谁能指出我的参考资料或提供有关 Facebook、Yahoo、Google 等公司如何执行他们为运营特别是 Web 分析执行的大规模(例如多 TB 范围)日志分析的高级概述?

特别关注网络分析,我对两个密切相关的方面感兴趣:查询性能和数据存储。

我知道一般的方法是使用 map reduce 将每个查询分布在一个集群上(例如使用 Hadoop)。但是,最有效的存储格式是什么?这是日志数据,因此我们可以假设每个事件都有一个时间戳,并且通常数据是结构化的而不是稀疏的。大多数 Web 分析查询涉及分析两个任意时间戳之间的数据切片并检索该数据中的聚合统计信息或异常情况。

像 Big Table(或 HBase)这样的面向列的数据库会是一种有效的方式来存储,更重要的是,查询这些数据吗?您选择行子集(基于时间戳)的事实是否违背了这种存储类型的基本前提?将其存储为非结构化数据会更好,例如。反向索引?