csv - 如何从 Azure Blob 存储下载分区的 hadoop 文件

问问题 2017-02-24T15:35:22.600

429 次

我在 Azure 上使用 HDInsight。我在 Azure Blob 存储上将一些 Spark 数据帧从 Spark 输出为 CSV 格式。我想将这些下载为单个 CSV 文件。

Spark 将这些存储为一个空文件 FOO.csv 和一个也称为 FOO.csv/ 的目录，其中包含数据的 CSV 分区。

截图：

[ 火花输出[1]

在 HDInsight 群集的头节点上，我可以使用在本地合并文件

$ hdfs dfs -getmerge wasb://xxxxxxxxxxxxx/salga2hf4da115242.csv salga2hf4da115242.csv

但这需要一个正在运行的 hadoop 集群来执行此操作。我希望能够使用 Azure CLI 在任何地方获取这些数据。

我试过这个：

$ azure storage blob download cat-vectors-ru salga2hf4da115242.csv salga2hf4da115242.csv

但是这只下载了容器顶层的 0 字节文件。

如何使用 Azure CLI 下载所有数据？Azure CLI 是否也可以进行合并？

0 回答 0