6

Hadoop流式作业中使用分布式缓存机制将文件传输到节点时,系统是否会在作业完成后删除这些文件?如果它们被删除(我认为它们是),有没有办法让缓存保留用于多个作业?这在 Amazon 的 Elastic Mapreduce 上是否同样有效?

4

2 回答 2

5

我在源代码中四处挖掘,看起来TrackerDistributedCacheManager当文件的引用计数降至零时,文件大约每分钟被删除一次。在TaskRunner任务结束时显式释放其所有文件。也许您应该编辑TaskRunner不这样做,并通过更明确的方式自己控制缓存?

于 2010-12-20T15:18:03.097 回答
2

在 AWS 论坛上交叉发布了这个问题,并得到了一个很好的建议,用于hadoop fs -get以跨作业持续存在的方式传输文件。

于 2010-12-21T21:31:27.190 回答