Hadoop中的黑白分布式文件系统和分布式缓存有什么区别?
问问题
891 次
1 回答
1
分布式文件系统,例如 Hadoop 分布式文件系统 (HDFS),是一种允许您在多台机器的硬盘中存储一个(或更多)大文件的架构。每台机器都保存该文件的一部分(称为块)。通常,每个块被复制多次(默认为 3 次)以防某些机器崩溃。在这种情况下,您可以通过从其他机器获取它们的副本来恢复丢失的块。您的 PC 也有一个文件系统,但它很可能不是分布式的。它是您的文件在层次结构中结构化和存储的地方。
分布式缓存是一种在作业运行时为所有机器提供相同输入文件的方法。这个/这些文件被加载到这些机器的内存中。例如,假设您有一个不希望您的 wordcount 程序计算的停用词列表。然后,在每个 MapReduce 作业开始时,您将这个停用词文件分发给所有地图任务,这些地图任务读取它并跳过这些停用词的计数。这样,所有任务共享一个公共输入文件。作业完成后,没有分布式缓存...
我的回答在很多方面可能在技术上并不正确,但我希望它能给你一个正确的直觉。
于 2014-06-10T14:14:05.633 回答