无论如何,map reduce 框架中的节点之间存在大量文件传输。那么分布式缓存的使用是如何提高性能的呢?
问问题
893 次
2 回答
0
DistributedCache 是 Map-Reduce 框架提供的一种工具,用于缓存应用程序所需的文件。一旦你为你的工作缓存了一个文件,hadoop 框架就会让它在你运行 map/reduce 任务的每个数据节点(在文件系统中,而不是在内存中)上可用。文件通过网络传输,通常通过 HDFS。与将 HDFS 用于任何非数据本地任务相比,它不会对网络造成更大的压力。
于 2015-06-29T06:19:05.640 回答
0
- 程序运行时没有大量的文件传输。想法是尽量减少网络数据传输。这就是计算靠近数据的原因。
- 分布式缓存是所有 map 或 reduce 任务所需的数据,不像普通数据那样只需要部分数据(任务拆分)。这就是为什么它分布到运行任务的所有节点。
于 2015-07-01T01:31:42.050 回答