问题标签 [mapreduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
aggregate - Elastic MapReduce 中可用的 reducer
我希望我以正确的方式问这个问题。我正在学习围绕 Elastic MapReduce 的方法,并且我已经看到许多关于可与“流”作业流程一起使用的“聚合”减速器的参考资料。
在 Amazon 的“Amazon Elastic MapReduce 简介”PDF 中,它指出“Amazon Elastic MapReduce 有一个名为聚合的默认减速器”
我想知道的是:是否有其他可用的默认减速器?
我知道我可以编写自己的减速器,但我不想最终编写已经存在的东西并“重新发明轮子”,因为我确信我的轮子不会像原来的那样好。
streaming - AWS 上 MapReduce 的 Hadoop 或 Hadoop 流
我即将开始一个将在 AWS 上运行的 mapreduce 项目,我可以选择使用 Java 或 C++。
我知道用 Java 编写项目会为我提供更多功能,但是 C++ 也可以通过 Hadoop Streaming 实现它。
请注意,我对这两种语言都没有多少背景。一个类似的项目已经用 C++ 完成,代码可供我使用。
所以我的问题是:这个额外的功能是通过 AWS 提供的,还是只有在你对云有更多控制权的情况下才相关?为了做出决定,我还有什么需要记住的,比如 hadoop 插件的可用性,可以更好地使用一种语言或另一种语言?
提前致谢
amazon-web-services - Amazon MapReduce 没有减速器作业
我正在尝试通过 AWS(流式作业)创建一个仅映射器的作业。reducer 字段是必需的,因此我提供了一个虚拟可执行文件,并将 -jobconf mapred.map.tasks=0 添加到 Extra Args 框中。在我安装的 hadoop 环境(0.20 版)中,不会启动减速器作业,但在 AWS 中,虚拟可执行文件会启动并失败。
如何在 AWS 中运行没有 reducer/mapper 的作业?
mapreduce - MapReduce 适合我吗?
我正在从事一个处理大量数据分析的项目,因此我最近发现了 MapReduce,在我进一步深入研究之前,我想确保我的期望是正确的。
与数据的交互将通过 Web 界面进行,因此响应时间在这里很关键,我认为 10-15 秒的限制。假设在我对其进行任何分析之前,我的数据将被加载到分布式文件系统中,我可以从中获得什么样的性能?
假设我需要过滤一个简单的 5GB XML 文件,该文件格式良好,具有相当扁平的数据结构和 10,000,000 条记录。假设输出将产生 100,000 条记录。10秒可以吗?
如果是,我在看什么样的硬件?如果不是,为什么不呢?
我把这个例子放下了,但现在希望我没有。5GB 只是我所说的一个示例,实际上我会处理大量数据。5GB 可能是一天中一小时的数据,我可能想识别所有符合特定条件的记录。
数据库对我来说真的不是一个选择。我想知道的是使用 MapReduce 可以达到的最快性能是什么。总是在几分钟或几小时内?永远不会秒吗?
eclipse - Error in using Hadoop MapReduce in Eclipse
When I executed a MapReduce program in Eclipse using Hadoop, I got the below error.
It has to be some change in path, but I'm not able to figure it out.
Any idea?
db2 - Netezza、Teradata、DB2 Parallel/Enterprise,……与 Hadoop 或其他?
我正在考虑在 Map/Reduce 解决方案(如 Hadoop)之上构建一些数据仓库/查询基础设施。
然而,令我震惊的是,所有 M/R 工作只是重复了 RDBMS 人员在过去 20 年中使用并行 SQL 数据库解决的问题。并行 SQL 实现跨节点扩展读写,就像 M/R 一样,但还包含来自常规数据库(SQL、现有集成库等)的细节。
问题是:您似乎没有发现这些公司的客户在网上发布了很多内容。那么,这里有没有人对这些解决方案有经验,可以给我一些见解和/或链接?
hadoop - Hadoop MapReduce 中的错误
当我使用 Hadoop 运行 mapreduce 程序时,出现以下错误。
这个错误是关于什么的?
algorithm - 流数据和识别主题的数据结构/算法
我想知道有效的算法/数据结构来识别流数据中的以下信息。
考虑像 twitter 这样的实时流数据。我主要对以下查询感兴趣,而不是存储实际数据。
我需要我的查询在实际数据上运行,而不是在任何重复数据上运行。
由于我对存储完整数据不感兴趣,因此我很难识别重复的帖子。但是,我可以散列所有帖子并检查它们。但我也想找出几乎重复的帖子。我怎样才能做到这一点。
确定用户讨论的前 k 个主题。
我想确定用户讨论的热门话题。我不想要 twitter 显示的高频词。相反,我想给出一些最常用词的高级主题名称。
我希望我的系统是实时的。我的意思是,我的系统应该能够处理任何数量的流量。
我可以想到 map reduce 方法,但我不确定如何处理同步问题。例如,重复的帖子可以到达不同的节点,并且它们都可以将它们存储在索引中。
在典型的新闻源中,将删除数据中的所有停用词。在我的系统中,我想通过识别各种主题中最常见的词来更新我的停用词列表。
什么是有效的算法/数据结构来实现这一点。
我想在一段时间内存储主题以检索数据中有趣的模式。比如说,星期五晚上每个人都想去看电影。存储这些数据的有效方法是什么。
我正在考虑将它存储在 hadoop 分布式文件系统中,但是随着时间的推移,这些索引变得如此之大,以至于 I/O 将成为我的主要瓶颈。
考虑来自世界各地推文的多语言数据。如何识别跨地理区域正在讨论的类似主题?
这里有2个问题。一是识别正在使用的语言。它可以根据发推文的人来识别。但是这些信息可能会影响用户的隐私。其他想法,可以通过训练算法运行它。目前为此遵循的最佳方法是什么。其他问题实际上是在字典中查找单词并将其与常见的中间语言相关联,例如说英语。如何处理词义消歧,就像在不同比赛中使用同一个词一样。
识别单词边界
一种可能性是使用某种训练算法。但是最好的方法是什么。这在某种程度上类似于词义消歧,因为您将能够根据实际句子识别词边界。
我正在考虑开发一个原型并评估系统,而不是具体的实现。我认为不可能废弃实时推特数据。我认为这种方法可以在一些在线免费提供的数据上进行测试。任何想法,我可以在哪里获得这些数据。
感谢您的反馈。
谢谢你的时间。
——巴拉
java - 不使用 JobConf 运行 Hadoop 作业
我找不到提交不使用已弃用JobConf
类的 Hadoop 作业的单个示例。 JobClient
,尚未被弃用,仍然只支持带JobConf
参数的方法。
Configuration
有人可以指出一个 Java 代码示例,该示例仅使用类(不是)提交 Hadoop map/reduce 作业JobConf
,并使用mapreduce.lib.input
包而不是包mapred.input
?
functional-programming - MapReduce与函数式编程中map-reduce组合的区别
我在http://en.wikipedia.org/wiki/MapReduce阅读了 mapreduce ,了解了如何在许多“文档”中获取“单词”计数的示例。但是我不明白以下行:
因此,MapReduce 框架将(键,值)对列表转换为值列表。这种行为不同于函数式编程 map 和 reduce 组合,后者接受任意值的列表并返回一个组合 map 返回的所有值的单个值。
有人可以再次详细说明区别(MapReduce框架VS map和reduce组合)吗?特别是,reduce 函数式编程有什么作用?
非常感谢。