我想了解 mapreduce 是如何在 Hadoop 中使用 KFS 作为文件系统发生的。
# ./bin/start-mapred.sh
如果 map/reduce 作业/任务跟踪器启动,所有 I/O 将完成到 KFS。
那么,假设我的输入文件分散在不同的节点(Kosmos 服务器),我(使用 KFS 作为文件系统的 hadoop 客户端)如何发出 Mapreduce 命令?
此外,在发出 Mapreduce 命令后,我的 hadoop 客户端是否会从不同服务器获取所有数据到我的本地计算机,然后执行 Mapreduce,或者它是否会在输入文件所在的计算机上启动 TaskTracker 守护进程,并且在那里执行 Mapreduce?如果我错了,请纠正我,但我认为输入文件顶部 Mapreduce 的位置是由函数 getFileBlockLocations (FileStatus, long, long) 返回的。
非常感谢您抽出时间帮助我。
问候, 尼基尔