azure - 使用 ADLS Gen2 摄取到数据湖时，文件应该存储在文件共享还是容器中

Question

在提取数据并转换基于 Azure ADLS gen2 存储帐户（分层）构建的数据湖的各个层时，我可以在容器或文件共享中组织文件。我们目前以原始格式“.csv”将原始文件提取到 RAW 容器中。然后，我们将这些文件合并到压缩 parquet 格式的 QUERY 容器中，以便我们可以使用 SQL Server 中的 Polybase 虚拟化所有数据。

据我了解，只能使用典型的 SMB/UNC 路径访问存储在文件共享中的文件。 在构建这样的数据湖时，是否应该避免使用 ADLS 中的容器，以便获得能够通过文件共享访问这些相同文件的额外好处？

我确实注意到位于文件共享下的文件似乎不支持元数据键/值（除非它只是没有通过 UI 公开）。除此之外，我想知道这两种类型之间是否还有其他真正的区别。

score 0 · Accepted Answer

感谢@Gaurav在评论部分分享知识。

（使用评论部分中提供的详细信息发布答案以帮助其他社区成员。）

之前，只能使用典型的 SMB/UNC 路径访问存储在 Azure 存储文件共享中的文件。但最近，现在可以使用 NFS 3.0 协议挂载 Blob 容器。此Microsoft 官方文档提供了分步指导。

限制：只能从基于 Linux 的 Azure 虚拟机 (VM) 或在本地运行的 Linux 系统将容器装载到 Blob 存储中。不支持 Windows 和 Mac OS。

azure - 使用 ADLS Gen2 摄取到数据湖时，文件应该存储在文件共享还是容器中

1 回答 1

Related

Reference