问题标签 [azure-data-lake-gen2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
413 浏览

python - 无法设置 Azure Data Lake 文件的内容类型

我需要将 CSV 文件上传到 Azure Data Lake Gen2 文件系统。在创建 Azure 数据湖文件时,我试图设置它的内容类型,我束手无策。请看下面的代码:

该文件是使用内容创建的,“uploadedby”元数据设置正确,但我无法设置内容类型。

我一直在关注官方文档here。我似乎找不到很多关于使用这个 SDK 的资源。

0 投票
1 回答
1830 浏览

azure - 仅通过 ACL 授予对 Azure Data Lake Gen2 访问权限(无 RBAC)

我的目标是在目录级别限制对 Azure Data Lake Gen 2 存储的访问(根据微软的承诺,这应该是可能的)。

我有两个目录data,并且sensitive在数据湖第 2 代容器中。对于特定用户,我想授予对目录的读取权限data并阻止对目录的任何访问sensitive

文档中,我删除了该用户的所有 RBAC 分配(在存储帐户以及数据湖容器上),因此我对目录没有继承的读取访问权限。data然后,我在该用户的目录中添加了一条 Read-ACL 语句。

我的期望:

  • 用户可以直接从data目录下载文件。
  • 用户无法访问该目录的sensitive文件

现实:当我尝试从数据目录下载文件时,我得到一个403 ServiceCode=AuthorizationPermissionMismatch

我希望这应该有效。否则,我只能通过分配 Storage Blob Reader 角色来授予访问权限,但这适用于容器内的所有目录和文件,并且不能被 ACL 语句覆盖。我这里有什么问题吗?

0 投票
2 回答
580 浏览

azure - 通过数据工厂将数据从 Azure“文件共享”复制到 BLOB 容器

我在一个订阅中设置了两个 datalake Gen2。我正在将数据上传到其中一个存储帐户中的 FILE SHARES 中,并尝试通过数据工厂将数据复制到另一个存储帐户(Blob 容器)。我无法为数据工厂中的 FILE SHARES 的数据设置链接服务。它仅指向数据湖的 Blob 容器。

我如何实现这一目标?我正在尝试通过数据工厂,因为我必须每天安排并自动运行一次此复制。谢谢。

0 投票
2 回答
511 浏览

python - 从 ADLS2 转移到计算目标非常慢 Azure 机器学习

在计算目标上执行的训练脚本期间,我们尝试从 ADLS2 数据存储下载已注册的数据集。问题是使用以下方法将〜1.5Gb(分成〜8500个文件)下载到计算目标需要几个小时:

重要说明:数据集注册到 Datalake 中的路径,该路径包含许多子文件夹(以及子子文件夹,..),其中包含大约 170Kb 的小文件。

注意:我可以在几分钟内使用az copyStorage Explorer 将完整的数据集下载到本地计算机。此外,数据集是在文件夹阶段定义的,带有用于扫描子文件夹的 ** 通配符:datalake/relative/path/to/folder/**

这是一个已知问题吗?如何提高传输速度?

谢谢 !

0 投票
1 回答
904 浏览

avro - Azure Synapse 可以查询 AVRO 吗?(EventHubs 捕获文件)

问题

Hive 内置了对 AVRO 的支持。使用 Azure Synapse(又名 PolyBase 的托管版本)我可以使用 Hive 的内置 AVRO SerDe 来查询 ADL Gen2 存储中的数据吗?

设想

我在一家拥有大量FIX 交易格式数据的金融公司工作。我正在构建一个尖峰,以尝试从 FIX 文件(历史数据、多年数据)和通过 Azure 事件中心(AEH,我相信它将以 AVRO 格式捕获到 ADL Gen2 转发的 FIX 消息)中查询原始 FIX 数据,一个 AVRO每个 FIX 交易消息的行)。我从“just FIX”的历史文件开始。

不祥的报价

来自Synapse外部表文档

本文前面列出了支持的 SerDe 方法与 RCFiles 的组合,以及支持的数据压缩方法。并非所有组合都受支持。

0 投票
1 回答
221 浏览

scala - Azure Datalake Store Gen2 使用 scala spark 库从 Databricks 读取文件

我正在尝试在 Azure Databricks(不是笔记本)上部署一个 Scala 库来执行一些计算。我正在尝试从 Azure Datalake Store Gen 2 目录中读取一些 avro 文件,执行一些操作,然后使用 avro 将其再次存储在另一个目录中。

我正在遵循本指南

我的理解是我需要挂载 Azure Datalake 的目录,以便我可以直接从那里读取 avro 文件,所以我需要执行以下操作:

我的问题是我不知道如何将“dbutils”对象导入我的项目。我还在使用Java SDK 库(版本 12.0.0-preview.6)来检索文件,但基本上我不知道如何使用 Databricks 来完成。

任何帮助或提示将不胜感激。

0 投票
1 回答
573 浏览

azure-data-factory - ADF:我的数据流中忽略了接收器目录

任何人都对接收器数据集中的目录设置有疑问。这些文件最终位于仅包含文件系统值的位置:

在此处输入图像描述

所以文件最终在 /curated 但应该最终在 /curated/profiledata

0 投票
2 回答
2533 浏览

c# - 如何在 C# 中使用服务主体(clientId 和 clientSecret)为 Azure Data Lake Store(Gen-2)创建 SAS 令牌?

我有 Data Lake Store (Gen-2) 的 clientId 和 clientSecret,我正在寻找一种使用 C# 以编程方式为其创建 SAS 令牌的方法。我浏览了文档,但没有找到创建 SAS 令牌的方法。任何指导将不胜感激。谢谢。

正如 Md Farid Uddin Kiron 所建议的,我使用了这段代码但没有成功:

它给了我状态 400 错误。

0 投票
2 回答
513 浏览

azure - 如何使用 GUI 工具浏览 Azure Data Lake gen 2

首先是一些背景知识: 我想促进对 Azure Data Lake gen 2 中不同数据科学家组的访问。但是,我们不想让他们访问整个数据湖,因为他们不应该看到所有数据安全原因。他们必须只能看到一些有限的文件/文件夹。我们通过将数据科学家的 AAD 组添加到数据湖文件夹的 ACL 来做到这一点。您可以参考以下链接以获得更多见解并了解我在说什么: https ://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-access-control

现在的问题是: 由于数据科学家被授予访问非常特定/有限区域的权限,因此他们能够使用 Azure 数据块(python 命令/代码等)访问/浏览这些文件夹/文件。但是,他们无法使用 Azure 存储资源管理器进行浏览。那么有什么方法可以让他们使用 Azure 存储资源管理器或其他一些 GUI 工具浏览数据湖。或者是否可以为这种场景创建一些自定义角色并将该角色授予数据科学家 AAD 组,以便他们可以访问特定区域(即,可以创建的自定义角色只有“执行”访问 ADLS gen 2 文件系统。)

0 投票
1 回答
684 浏览

azure - Azure ADLSGEN2 - API 错误 400 - DatalakeStorageException 请求 URI 无效

我正在使用 Azure SDK (Java) 在 ADLSGEN2 中创建目录、上传文件、移动文件。

我的输入很简单,看起来像:

path : /path/to/fileOrFolder

但我收到以下错误: