1

我刚刚在 HDInsight 中设置了一个 Hadoop 集群并尝试开始使用 Hadoop。我已经在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到此框中。文档将此框称为头节点,并有一个额外的步骤,它讨论将数据复制到 hadoop 集群。这让我很困惑。

我有以下问题:

  1. 当我将数据从桌面复制到我登录的盒子时,它实际上没有将数据复制到hadoop吗?

  2. 第一次复制操作与第二次复制操作有何不同?

  3. Hadoop 中的头节点是什么?

4

1 回答 1

7

HDInsight 群集中的头节点是运行构成 Hadoop 平台的一些服务的机器,包括名称节点和作业跟踪器。从广义上讲,哪个控制数据在哪里,以及在哪里进行计算。

要使用 HDInsight,您实际上不需要登录到此头节点,也不需要使用远程桌面来使用它。我建议使用 powershell 方法http://blogs.msdn.com/b/carlnol/archive/2013/06/07/managing-your-hdinsight-cluster-with-powershell.aspx为您提供了一个很好的指南那个设置。

就将数据复制到集群而言,这与将数据复制到头节点(只是一台机器)不同。设置 HDInsight 群集时,还将其链接到 Azure 存储帐户。您需要将数据上传到 blobs 存储帐户,以使其可供集群访问。有许多很好的工具可以帮助解决这个问题,我推荐Azure Explorer - 披露:我为制作它的人工作,但它是免费的 :)。

于 2013-11-13T21:14:20.203 回答