我正在使用 scala 和 spark,需要访问 azure blob 存储并获取其文件列表。知道火花版本的最佳方法是 2.11。
问问题
3072 次
1 回答
2
- 对于本地运行的 Spark,有一篇官方博客介绍了如何从 Spark 访问 Azure Blob Storage。关键是您需要在 core-site.xml 文件中将 Azure 存储帐户配置为与 HDFS 兼容的存储,并将两个 jars hadoop-azure 和 azure-storage 添加到您的类路径中,以便通过协议 wasb[s] 访问 HDFS。您可以参考官方教程了解使用 wasb 的 HDFS 兼容存储,以及有关 HDInsight 配置的博客更多详细信息。
- 对于运行在 Azure 上的 Spark,区别只是使用 wasb 访问 HDFS,其他的准备工作在使用 Spark 创建 HDInsight 集群时由 Azure 完成。列出文件的方法是SparkContext的listFiles或wholeTextFiles
于 2018-03-19T13:24:18.893 回答