什么是 Hadoop 中的分布式 Cahce?
这个怎么运作?
Could some one give me inline description of it with real time example?
分布式缓存可以包含初始化所需的小数据文件或可能需要在集群中的所有节点上访问的代码库。例如,您必须计算大量文件中出现的单词数量。并且您已指示您必须在给定的文件中计算除这些单词之外的每个单词说(ignore.csv 这也是大文件)。
然后你在分布式缓存中读取这个ignore.csv是你的映射器或reducer的设置函数取决于你的逻辑并将其存储在一个数据结构中,你可以轻松地访问每个单词(例如HashMap)。
该文件将在任何机器的 mapper 和 reducer 启动之前读取和存储,并且该分布式缓存对于集群中运行的所有机器都是相同的。
我希望你现在明白了。如果有任何疑问,请评论。
DistributedCache 是 Hadoop 中已弃用的类。这是正确的使用方法
Hadoop DistributedCache 已弃用 - 首选 API 是什么?
DistributedCache 将文件复制到所有从节点。因此,对于本地运行的 MR 作业,访问速度更快。缓存不在RAM中,它只是所有从节点的所有本地磁盘卷中的文件系统缓存