0

我开始使用 Hadoop 并尝试实现 Hadoop 集群。我是分布式系统的新手,所以对术语有点困惑。

  • 名称节点和数据节点是否对应物理硬盘?
  • 如果说我需要在单个 cpu 单元上运行映射任务,我们是否在设置 mapred.tasktracker.map.tasks.maximum 标志时将映射任务分配给单个内核或处理器(具有多核)
  • “节点”是什么意思?处理器或物理磁盘或内核?
4

1 回答 1

1

首先(在术语方面),我假设您的意思是实例化一个 Hadoop 集群而不是实现一个。

  • 一个名称节点管理一个或多个数据节点。块 ID 的文件名索引由内存中的名称节点维护,并定期刷新到磁盘。块的实际位置由数据节点报告给名称节点,名称节点从该点开始管理块的分配、迁移、复制和删除。
  • 数据节点管理物理硬盘上块的存储。数据节点可以将其块分布在一个或多个物理磁盘上(实际上,我们鼓励您使用多个物理磁盘而不是单个逻辑磁盘卷)
  • Job Tracker (JT) 管理将任务分配(map 或 reduce)到一个或多个 Task Tracker (TT) 的过程。通常,您将配置集群中的每个节点(物理机),以便可以运行的最大任务数(map / reduce)与内核数匹配(不是硬性规定,取决于您期望如何使用集群)
  • 节点通常意味着一台物理机器,它通常运行一个任务跟踪器(运行映射/减少任务)和一个数据节点(存储/提供文件块)。
于 2013-05-16T00:04:28.380 回答