java - hadoop 惰性分布式缓存

Question

给定一个 hadoop 集群，我有一个工作，我有一大组文件需要所有工作人员在他们执行缩减阶段时访问。

使用 DistributedCache 的功能似乎是个好主意。但是，它似乎不满足以下所需行为：

延迟文件获取：文件被延迟复制到工作人员（只有在尝试读取时才会在本地缓存）。
getLocalCacheFiles 很奇怪：另一个明显相关的问题是 DistributedCache 接口的问题。要访问本地文件，似乎需要调用 DistributedCache.getLocalCacheFiles(conf)。有没有办法只按名称请求某个文件（例如：DistributedCache.getLocalFile(conf, fileName)）

分布式缓存可以做到这一点吗？还有其他满足我要求的库吗？

谢谢！

score 1 · Accepted Answer

分布式缓存不支持延迟加载，它们会在您的作业在该节点上执行的第一个 map / reduce 任务之前被复制到每个任务节点（请注意，文件仅复制到 map / reduce 任务将执行的节点发生）。如果你想要延迟加载，只需直接在 HDFS 中打开文件，尽管如果你有 1000 个并发任务试图从同一个文件中读取，这对于你的 namenode / datanodes 来说并不能很好地扩展

您可以使用符号链接为分布式缓存中的文件提供友好名称，它们将出现在每个 map/reduce 任务的本地工作目录（符号链接）中。

例如，使用通用选项解析器选项 -files，您可以将文件上传到 HDFS，将其添加到 DistributedCache 并分配友好名称，如下所示：

hadoop jar myjar.jar MainClass -files ref-map.txt#map1.txt ...

现在您应该能够通过在 map/reducer 中调用以下命令来打开 ref-map.txt 文件：

File map1 = new File("map1.txt");

如果您的文件已经在 HDFS 中，那么只需像往常一样添加 then 并调用该createSymlink(Configuration)方法。当您将文件添加到分布式缓存时，您还可以使用片段 URI 分配友好的名称：

DistributedCache.addCacheFile(new URI("/path/to/file.txt#file1", conf);

java - hadoop 惰性分布式缓存

1 回答 1

Related

Reference