2

我在 Azure 上使用 HDInsight。我在 Azure Blob 存储上将一些 Spark 数据帧从 Spark 输出为 CSV 格式。我想将这些下载为单个 CSV 文件。

Spark 将这些存储为一个空文件 FOO.csv 和一个也称为 FOO.csv/ 的目录,其中包含数据的 CSV 分区。

截图:

[火花输出[1]

分区数据

在 HDInsight 群集的头节点上,我可以使用在本地合并文件

$ hdfs dfs -getmerge wasb://xxxxxxxxxxxxx/salga2hf4da115242.csv salga2hf4da115242.csv

但这需要一个正在运行的 hadoop 集群来执行此操作。我希望能够使用 Azure CLI 在任何地方获取这些数据。

我试过这个:

$ azure storage blob download cat-vectors-ru salga2hf4da115242.csv salga2hf4da115242.csv

但是这只下载了容器顶层的 0 字节文件。

如何使用 Azure CLI 下载所有数据?Azure CLI 是否也可以进行合并?

4

0 回答 0