我试图了解与 Hadoop 的 Map/Reduce 框架相关的数据局部性。特别是我试图了解哪个组件处理数据局部性(即它是输入格式吗?)
雅虎的开发者网络页面指出“Hadoop 框架然后使用来自分布式文件系统的知识将这些进程安排在靠近数据/记录位置的位置。” 这似乎意味着 HDFS 输入格式可能会查询名称节点以确定哪些节点包含所需的数据,并在可能的情况下在这些节点上启动映射任务。可以想象,HBase 也可以采用类似的方法,通过查询来确定哪些区域正在为某些记录提供服务。
如果开发人员编写自己的输入格式,他们会负责实现数据局部性吗?