我想从 Azure 表中导入数据,然后导出到 Azure 上的 Hadoop 集群。目前我正在将 Azure 表中的数据下载到 .csv 中,然后将 .csv 上传到 Hadoop 集群。我想知道有没有办法直接做。
谢谢,基兰
我想从 Azure 表中导入数据,然后导出到 Azure 上的 Hadoop 集群。目前我正在将 Azure 表中的数据下载到 .csv 中,然后将 .csv 上传到 Hadoop 集群。我想知道有没有办法直接做。
谢谢,基兰
我编写了一个 HiveStorageHandler,它可以让您创建由 Azure 存储表支持的 Hive 表。它在 github 上可用:
https://github.com/simonellistonball/hive-azuretables
请注意,您还需要在 hadoop 类路径中使用Microsoft Azure SDK for Java才能正常工作。最简单的方法可能是将它安装在像 /usr/lib/hadoop/lib/ 这样的中心位置。
如果你在我的 repo 上做了一个 mvn 包,你应该得到一些你可以用 hive ADD JAR 加载的东西。存储库的自述文件包含一个示例查询,显示如何创建连接到 Azure 的 Hive 表。