问题标签 [mapreduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
frameworks - MapReduce的简单解释?
与我的CouchDB问题有关。
谁能用麻木的人可以理解的方式来解释 MapReduce?
concurrency - 如何告诉多核/多 CPU 机器并行处理循环中的函数调用?
我目前正在设计一个应用程序,该应用程序具有一个模块,该模块将从数据库中加载大量数据,并根据情况通过各种计算将其减少到更小的集合。
许多更密集的操作具有确定性,并且适合并行处理。
如果我有一个循环遍历从数据库到达的大量数据块,并且每个数据块都调用一个没有副作用的确定性函数,我将如何制作它以便程序不等待函数返回而是设置下一个电话,所以他们可以并行处理?一种天真的方法来证明这个原则现在对我有用。
我已经阅读了 Google 的 MapReduce 论文,虽然我可以在很多地方使用总体原理,但我现在不会针对大型集群,而是将其作为 1.0 版的单个多核或多 CPU 机器. 所以目前,我不确定我是否可以真正使用该库,或者自己必须推出一个简化的基本版本。
我处于设计过程的早期阶段,到目前为止,我将 C-something(用于速度关键位)和 Python(用于生产力关键位)作为我的语言。如果有令人信服的理由,我可能会切换,但到目前为止我对我的选择感到满意。
请注意,我知道从数据库中检索下一个块可能比处理当前块需要更长的时间,然后整个过程将受 I/O 限制。但是,我现在假设它不是,并且在实践中使用数据库集群或内存缓存或其他东西在这一点上不受 I/O 限制。
ruby-on-rails - Rails 中的 RT 并行处理
我正在开发一种在 Ruby on Rails 中的个性化搜索引擎,我目前正在尝试根据用户的记录实时找到对结果进行排序的最佳方式。
示例:搜索的项目可以有标签(带有 id 的单独实体),例如项目有标签=[1,5,10,23,45]。
另一方面,用户可能已将某些标签标记为特别感兴趣,因此假设用户的标签=[5, 23]。
用于对结果进行排序的分数应考虑用户“盯着”的项目标签的数量。例如,项目的分数将基于项目的属性为 50%,而排名为 50%,具体取决于用户的(注视的标签数量)。
一个想法是将其注入信息检索系统的排序功能中。但是在我可能会使用的 Sphinx 中,实现起来会非常尴尬(当用户的向量很大时)。我不了解 Lucene/solr,但它们似乎没有我需要的高级非文本搜索功能(距离、日期、时间等)
其他选项是从 IR 系统检索中介集,然后在应用程序级别对其进行处理。但是,我很确定按顺序处理 100-1000 条记录,然后在 Rails 中对它们进行排序会非常慢。
另一方面,这似乎是可以轻松并行处理的任务 - 将 1000 条记录分成由单独的线程处理然后排序的集合。
我读到了几个 map reduce 实现,既有像 hadoop 这样的通用实现,也有像 skynet 等特定于 rails 的实现,但它们最适合大批量作业,而不是实时处理(除非我弄错了?)。
我可以为此使用任何内存中的轻型 MR 实现吗?或者,也许你有一些其他的想法如何处理它?
(旁注:我相信这个设置类似于谷歌新闻的工作方式,从我从“谷歌新闻个性化:可扩展的在线协同过滤”论文中了解到。它们实时匹配一组候选故事和用户所属的一组集群到(之前预先计算的)以个性化的方式对故事进行排序)
hadoop - 您如何使用 MapReduce/Hadoop?
我正在寻找一些关于其他人如何使用Hadoop或其他类似 MapReduce 的技术的一般信息。一般来说,我很好奇您是在编写 MR 应用程序来处理现有数据集(如 Web 服务器日志文件),还是在编写生成和处理新数据集的应用程序?
编辑: 后续问题
(1) 您是否曾经针对其他 MR 程序生成的数据执行 MR 程序?
(2) 您是否需要使用 MR 修改现有数据集?
(3) 您是否曾与其他开发人员共享您的数据集?
c# - 是否有与 Apache Hadoop 等效的 .NET?
所以,我一直怀着浓厚的兴趣关注Hadoop,老实说,我很着迷,事情并没有变得更酷。
我唯一的小问题是我是一名 C# 开发人员,它使用 Java。
并不是说我不了解 Java,而是我正在寻找包含Google MapReduce方法的 Hadoop.net 或 NHadoop 或 .NET 项目。有人知道吗?
database - 大数据——存储和查询
我们有大约 3 亿条记录的庞大数据,每 3-6 个月更新一次。我们需要(连续、实时)查询这些数据以获取一些信息。有哪些选项 - RDBMS(mysql) 或其他一些选项,例如 Hadoop。哪个会更好?
database - 200 亿行/月 - Hbase / Hive / Greenplum / 什么?
我想利用您的智慧为数据仓库系统找到正确的解决方案。这里有一些细节可以更好地理解问题:
数据以星型结构组织,具有一个 BIG 事实和约 15 个维度。
每月 20B 个事实行
10 个维度,百行(有点层次)
5 个维度,数千行
2 个维度,约 200K 行
2 个大维度,50M-100M 行
针对此数据库运行两个典型查询
dimq 中的顶级成员:
针对元组的措施:
问题:
- 执行此类查询的最佳平台是什么
- 需要什么样的硬件
它可以托管在哪里(EC2?)
(请暂时忽略导入和加载问题)
Tnx,
哈盖。
algorithm - 如何使用 MapReduce/Hadoop 实现特征值计算?
这是可能的,因为 PageRank 是特征值的一种形式,这就是引入 MapReduce 的原因。但在实际实现中似乎存在问题,比如每台从机都必须维护一份矩阵的副本?
language-agnostic - 什么是 Map/Reduce?
我听到了很多关于 map/reduce 的信息,尤其是在 Google 大规模并行计算系统的背景下。它到底是什么?
c# - .NET 中的映射和归约
哪些场景需要使用“ Map and Reduce ”算法?
该算法是否有 .NET 实现?