我对如何设置 Hadoop 分布式文件系统以及我的特定设置如何影响它有点困惑。我使用本指南在 Virtual Box 上使用两个虚拟机设置http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/并运行了示例(只是一个带有 txt 文件输入的简单字数)。到目前为止,我知道 datanode 管理和检索其节点上的文件,而 tasktracker 分析数据。
1) 当您使用命令 -copyFromLocal 时,您是否正在将文件/输入复制到 HDFS?Hadoop是否知道如何在slave/master之间划分信息,它是如何做到的?
2)在上面链接的指南中概述的配置中,技术上是否有两个从设备(主设备既作为主设备又作为从设备)?这是常见的还是主机通常只给jobtracker/namenode任务?