我是hadoop的初学者。但我有一个有趣的观察。
使用hadoop 文档中的示例,
通过在独立操作和伪分布式操作中运行相同的示例,独立操作用时不到 1 分钟,但伪分布式操作用时超过 3 分钟。这是很大的区别。我可以理解分布式模式下有额外的网络和调度开销。但似乎差别太大了。这可能不是真正的比较,因为示例非常简单。
我的问题是,在现实世界的工作中,独立模式和分布式模式之间有多大区别?
我是hadoop的初学者。但我有一个有趣的观察。
使用hadoop 文档中的示例,
通过在独立操作和伪分布式操作中运行相同的示例,独立操作用时不到 1 分钟,但伪分布式操作用时超过 3 分钟。这是很大的区别。我可以理解分布式模式下有额外的网络和调度开销。但似乎差别太大了。这可能不是真正的比较,因为示例非常简单。
我的问题是,在现实世界的工作中,独立模式和分布式模式之间有多大区别?
这些是相当不同的场景。在独立模式下,它永远不会启动正确的单节点 Hadoop 集群。一切都发生在本地,内联,在 JVM 中。数据甚至不必写入磁盘,可能。伪分布式操作是一个本地节点的最小“真实”Hadoop 安装。您必须将数据读/写到本地 HDFS 实例,生成另一个 JVM,等等。所有这些都会增加很多开销。也许开销确实是几分钟。这对我来说似乎完全明智。
Hadoop 框架用于处理大数据。
所以数据的大小很重要,因为在传统文件系统中处理较小的文件会比在 hadoop 中更快,因为 hadoop mapreduce 框架有内部工作要做(制作数据文件块并将其发送到数据节点并在处理从数据节点再次访问时)。因此对于较小的文件,hadoop框架不适合。
来到独立和伪分布式模式,你应该考虑的一个方面是文件的大小,第二个方面是独立和伪分布式模式的实际差异。
在独立模式下,没有 HDFS 的概念,数据不会复制到 hadoop 分布式文件系统(显然节省了时间)。而在伪分布式模式下,涉及的 hdfs 需要与需要处理的数据一起复制。
小尺寸的数据文件更适合使用传统的文件处理,如果文件大小变得越来越大,hadoop 框架会提供更好的处理时间! 希望这可以帮助!