0

我在分布式缓存中有一个文件。驱动程序类根据作业的输出更新此文件并启动新作业。新工作需要这些更新。

我目前这样做的方式是用新的(更新的)替换旧的分布式缓存文件。

有没有办法将差异(旧文件和新文件之间)广播到所有需要该文件的任务跟踪器?

或者是这样的情况,在一项工作(在我的情况下是第一个)完成后,所有特定于该工作的目录/文件都被删除,因此朝这个方向思考甚至没有意义?

4

1 回答 1

0

我认为分布式缓存不是在考虑这种情况的情况下构建的。它只是将文件放在本地。
在您的情况下,我建议将文件放入 HDFS 并让所有感兴趣的各方从那里获取它
作为一种优化,您可以为该文件提供高复制因子,并且它将是大多数任务的本地文件。

于 2012-08-24T15:09:30.993 回答