0

我想知道如何使用 Azure 数据工厂 V2 中的活动(最好是 pyspark)连接并列出 Blob 存储容器中可用的文件

4

2 回答 2

1

有几种方法可以帮助您:

在 Azure 中使用 HDInsight Hadoop 或 Spark 群集时,它们会自动预配置为通过实现标准 Hadoop FilesSystem 接口的 hadoop-azure 模块访问 Azure 存储 Blob。您可以在https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/了解有关 HDInsight 如何使用 blob 存储的更多信息

可以在此博客文章中找到详细指南:https ://blogs.msdn.microsoft.com/arsen/2016/07/13/accessing-azure-storage-blobs-from-spark-1-6-that-is -本地运行/

在这张幻灯片中可以找到另一个显示 Storage API 使用与 Spark 集成的来源: https ://www.slideshare.net/BrajaDas/azure-blob-storage-api-for-scala-and-spark

于 2018-03-30T20:04:35.540 回答
0

此 python 脚本允许通过使用 Azure Datafactory V2 运行的 pyspark 脚本访问 blob。

https://github.com/Azure-Samples/storage-blob-python-quickstart/blob/master/example.py

但是我不得不使用

from azure.storage.blob import BlobService

而不是建议的

from azure.storage.blob import BlockBlobService
于 2018-04-11T07:54:27.417 回答