我在 Azure 上使用 HDInsight。我在 Azure Blob 存储上将一些 Spark 数据帧从 Spark 输出为 CSV 格式。我想将这些下载为单个 CSV 文件。
Spark 将这些存储为一个空文件 FOO.csv 和一个也称为 FOO.csv/ 的目录,其中包含数据的 CSV 分区。
截图:
[
在 HDInsight 群集的头节点上,我可以使用在本地合并文件
$ hdfs dfs -getmerge wasb://xxxxxxxxxxxxx/salga2hf4da115242.csv salga2hf4da115242.csv
但这需要一个正在运行的 hadoop 集群来执行此操作。我希望能够使用 Azure CLI 在任何地方获取这些数据。
我试过这个:
$ azure storage blob download cat-vectors-ru salga2hf4da115242.csv salga2hf4da115242.csv
但是这只下载了容器顶层的 0 字节文件。
如何使用 Azure CLI 下载所有数据?Azure CLI 是否也可以进行合并?