3

我正在从这门课程中学习。它要求创建一个新的 hdinsight 集群(选项是 hadoop、hbase、storm 或 spark)以及一个存储帐户。集群和存储帐户有什么区别?集群是否包括处理我的作业的处理器,存储帐户是否意味着存储我的数据的空间?为什么我不能将同一个存储帐户连接到不同的集群?

同样在 Microsoft Azure >> New >> Data + Analytics 下,我看到了 2 个选项:hdinsight,处理大数据的数据湖分析。这两者有什么区别?两人长得很像

HDInsight Microsoft 的基于云的大数据服务。Apache Hadoop 和其他流行的大数据解决方案。

数据湖分析 大数据分析变得简单

4

1 回答 1

3

这里有很多问题,所以让我一一回答。

什么是 Blob 存储与 HDInsight 群集? Blob 存储是与 HDFS 非常相似的分布式文件存储,用于存储数据/视频/事物。HDInsight 群集是为在 DFS(HDFS 或 Blob 存储)上运行 Map Reduce 代码而创建的许多 Hadoop 虚拟机。拥有两个独立的服务允许您独立扩展每个服务,从长远来看可以节省资金。数据存储很便宜,但 500 个节点的 VM 集群很快就会变得昂贵。能够杀死集群但保留您的数据是有帮助的。

为什么我不能将同一个存储帐户连接到不同的集群? 您可以将多个集群指向同一个存储帐户,但这是一种反模式。存储帐户具有数据和 IO 限制,如果您有多个集群针对单个存储帐户进行拉取,则更有可能会遇到它们。此外,存储帐户仅在您有数据的情况下才需要 $$,因此拥有多个帐户不会增加成本。

什么是 Azure 数据湖 (ADL) 和 ADL 存储? Azure 数据湖是存储和计算的另一种选择。ADL 存储可以被认为是 blob 存储 v2。您可以从 Blob 存储中获得对 IO 和文件大小的一些限制,同时仍然能够使用 Hadoop 进行计算。ADL 是与 Hadoop 完全不同的第二个计算选项。您不必担心集群的创建或一般的集群。您编写一个查询,指定您想要的并行化量,然后返回数据。

参考:

https://azure.microsoft.com/en-us/documentation/articles/azure-subscription-service-limits/#storage-limits

https://azure.microsoft.com/en-us/services/hdinsight/

https://azure.microsoft.com/en-us/solutions/data-lake/

于 2016-03-18T17:47:06.297 回答