azure - 获得 azure blob 存储的最佳方法是什么

Question

我正在使用 scala 和 spark，需要访问 azure blob 存储并获取其文件列表。知道火花版本的最佳方法是 2.11。

score 2 · Accepted Answer

对于本地运行的 Spark，有一篇官方博客介绍了如何从 Spark 访问 Azure Blob Storage。关键是您需要在 core-site.xml 文件中将 Azure 存储帐户配置为与 HDFS 兼容的存储，并将两个 jars hadoop-azure 和 azure-storage 添加到您的类路径中，以便通过协议 wasb[s] 访问 HDFS。您可以参考官方教程了解使用 wasb 的 HDFS 兼容存储，以及有关 HDInsight 配置的博客更多详细信息。
对于运行在 Azure 上的 Spark，区别只是使用 wasb 访问 HDFS，其他的准备工作在使用 Spark 创建 HDInsight 集群时由 Azure 完成。列出文件的方法是SparkContext的listFiles或wholeTextFiles

1 回答 1