2

我想以我可以轻松报告的格式将 map reducer 生成的数据保存在 hdinsight 中。理想的表结构(Azure 表存储)。经过一些研究,看起来 HDInsight 服务只能与 Azure Storage Vault (ASV) 一起使用(读取和写入)。那是对的吗?

我更愿意在 C# 中实现 hdinsight 映射器/减速器。

我对 hive 或 pig 不太了解,想知道是否有一种功能可以将 reducer 的结果保留在 ASV 以外的外部(天蓝色表)数据存储中?

4

1 回答 1

1

目前支持 HDInsight 的默认存储是 ASV。您还可以将数据存储在 HDInsight 群集上的“本地”HDFS 文件系统上。但是,这意味着保持集群永久运行,并将您的存储限制在计算节点上。这可能会变得非常昂贵。

一种解决方案可能是将结果sqoop 到SQL server(或SQL Azure)之类的东西,具体取决于大小和您打算用它们做什么。

或者,我目前正在开发Hive 和 Azure Tables 之间的连接器,它目前允许您从 Azure Tables 读取到 Hive(通过外部表),但很快也会获得写入支持。

于 2013-08-26T11:06:46.810 回答