给定一个 hadoop 集群,我有一个工作,我有一大组文件需要所有工作人员在他们执行缩减阶段时访问。
使用 DistributedCache 的功能似乎是个好主意。但是,它似乎不满足以下所需行为:
延迟文件获取:文件被延迟复制到工作人员(只有在尝试读取时才会在本地缓存)。
getLocalCacheFiles 很奇怪:另一个明显相关的问题是 DistributedCache 接口的问题。要访问本地文件,似乎需要调用 DistributedCache.getLocalCacheFiles(conf)。有没有办法只按名称请求某个文件(例如:DistributedCache.getLocalFile(conf, fileName))
分布式缓存可以做到这一点吗?还有其他满足我要求的库吗?
谢谢!