在提取数据并转换基于 Azure ADLS gen2 存储帐户(分层)构建的数据湖的各个层时,我可以在容器或文件共享中组织文件。我们目前以原始格式“.csv”将原始文件提取到 RAW 容器中。然后,我们将这些文件合并到压缩 parquet 格式的 QUERY 容器中,以便我们可以使用 SQL Server 中的 Polybase 虚拟化所有数据。
据我了解,只能使用典型的 SMB/UNC 路径访问存储在文件共享中的文件。 在构建这样的数据湖时,是否应该避免使用 ADLS 中的容器,以便获得能够通过文件共享访问这些相同文件的额外好处?
我确实注意到位于文件共享下的文件似乎不支持元数据键/值(除非它只是没有通过 UI 公开)。除此之外,我想知道这两种类型之间是否还有其他真正的区别。