有人可以根据软件背后的想法解释什么是 hadoop 吗?是什么让它如此受欢迎和/或强大?
mhb
问问题
405 次
2 回答
5
Hadoop 是一种编程环境,可以在大型机器集群上并行运行大量计算。它对丢失多台机器具有弹性,可扩展以通过添加机器来实现更快的计算,并且可跟踪以报告计算状态。Hadoop 之所以受欢迎,是因为它是一个强大的开源环境,而且很多用户(包括 Yahoo!、Microsoft 和 Facebook 等大型用户)都将它用于大型数据处理项目。它之所以强大,是因为它使用了 map/reduce 算法,该算法将计算分解为两个简单操作的序列:
- map - 获取项目列表并对每个项目执行相同的简单操作。例如,获取网页的文本,对其进行标记并将每个标记替换为字符串 :1
- reduce - 获取项目列表并使用累积运算符对其进行累积。例如,取 :1 的列表,统计出现的次数,输出 :nt 形式的列表,其中 nt 是在原始列表中出现的次数。
使用适当的分解(程序员所做的)和任务分配和监控(Hadoop 所做的),您可以获得快速可扩展的计算;在我们的示例中 - 字数计算。您可以对数十张地图进行排序并减少并获得复杂算法的实现。这是非常高级的观点。现在阅读更多关于MapReduce和Hadoop的详细信息。
于 2009-05-03T10:15:24.017 回答
4
Hadoop 实现了 Google 的 MapReduce 算法,为了更好地理解它,您必须阅读 Google 的 MapReduce 论文,网址为http://research.google.com/archive/mapreduce.html
于 2009-05-03T08:44:17.870 回答