问题标签 [azure-data-lake-gen2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
177 浏览

github - Azure devops 使用 devops 中的 powershell 脚本路径任务在 ADLS gen2 容器中分配角色 rwx

我在将角色分配给存储容器 rwx 时面临一个问题,以便我的数据工厂可以从 adls gen 2 读取数据。下面的脚本在 azure devops powershell 脚本中使用内联脚本运行良好。但是当我将其更改为来自文件路径的脚本时(位置是github)。我已经在 .ps1 扩展名中放入了以下脚本。

我在 devops 管道中遇到的错误

2020-06-03T14:29:18.8399468Z ##[错误]无法验证参数“权限”的参数。参数“rx”与“([r-][w-][x-]){3}”模式不匹配。提供与“([r-] [w-][x-]){3}”匹配的参数并再次尝试该命令。

我不确定为什么在选择脚本作为文件路径时会发生这种情况,相同的脚本在内联脚本路径中运行良好

在此处输入图像描述

0 投票
1 回答
1400 浏览

azure - Azure Data Lake Gen 2 默认访问控制列表未应用于新文件

Azure Data Lake Gen 2 有两个级别的访问控制;基于角色的访问控制 (RBAC) 和访问控制列表 (ACL)。容器级别的 RBAC 功能和 ACL 可以在目录和文件级别功能。目录的子对象要继承父级的ACL,需要指定“默认”权限与父级的访问权限相同。

请参阅:https ://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-access-control#default-permissions-on-new-files-and-directories

我的问题是我看到子目录继承其父 ACL 但子文件没有的行为。

我的步骤是这样的:

  1. 创建一个 AAD 组,例如“消费者”
  2. 在Microsoft Azure Storage Explorer中,新建一个目录(“foo”),右击“foo”,选择“Manage Access”,选择“Add”,将“Consumers”组添加到列表中,勾选[x] Access with [ x] 读取并 [x] 执行。使用 [x] 读取和 [x] 执行检查 [x] 默认值。
  3. 编写一个 Azure 函数,将 blob 从容器复制到具有托管访问权限的容器中的“foo/dataset/2020/05/myblob.csv”之类的内容。
  4. 向下钻取目录;“dataset”目录与“foo”具有相同的 ACL,“2020”和“05”也是如此。但是“myblob.csv”在其 ACL 中根本不包含“Consumers”组。

这是出乎意料的行为还是我在这里遗漏了一些基本的东西?

这似乎是函数或函数中使用的 Azure Data Lake Gen 2 SDK (C#) 的问题。

使用 Azure 存储资源管理器,当我在已添加“消费者”组的目录下手动添加文件时,它会应用预期的 ACL。当我添加一个包含文件的目录时,它也可以工作 - 子目录中的文件和子目录都具有预期的 ACL。

谢谢

[编辑] 这与使用 C# SDK 编写文件时的 umask 有关吗?我是否需要覆盖默认掩码以允许文件继承其父级的权限?https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-access-control#the-mask

[ edit2 ] 我认为这与使用 DataLakeFileClient.Rename “移动” blob 有关。我怀疑 blob 保留其原始 ACL,而不是从其新父级继承 ACL。写一个测试...

0 投票
1 回答
601 浏览

powerbi - 使用 SAS 令牌 Power BI 连接到 Azure Data Lake Storage Gen 2

我正在尝试使用 Power BI 连接到 ADLS Gen 2 容器,但我只找到了从容器连接 key1/2 的选项(在这种情况下,活动目录不是一个选项)。

但是,我不想使用这些密钥,因为它们存储在 Power BI 中,并且可以让拥有 .pbix 文件的人看到。

是否可以使用共享访问签名 (SAS) 从 Power BI 连接到 ADLS Gen 2?所以我只能控制对真正需要的内容的读取权限?

谢谢

0 投票
0 回答
78 浏览

azure - azure 数据湖 - 验证 csv 中的要求字段

我开始使用大数据。假设我将收到多个 csv 文件,这些文件将存储在 Azure Data Lake 中并且它们具有已定义的架构,那么最好的方法是:

-验证是否将在 CSV 中提供必填字段(并非所有字段都是必需的)

-获取成功匹配定义模式的记录

- 获取与定义的模式不匹配的记录

我已经查看了 USQL 以及它可以多快合并/提取/分组数据,但它并不被认为是逐行验证的正确工具。我还查看了 Azure 数据工厂,但我不确定是否是正确的工具或如何完成此操作。

提前致谢

0 投票
1 回答
1970 浏览

azure-blob-storage - ADLS Gen2 上的 Polybase - CSV 文件作为源失败并出现“HdfsBridge::recordReaderFillBuffer”错误

这是我第一次使用 Polybase,我正在尝试将示例 CSV 文件(以第一条记录作为标题)从ADLS Gen2加载到 Synapse。我之前已经创建了一个万能钥匙,所以我没有再次创建它。我实施的其余步骤如下:

我不知道我做错了什么。我尝试通过互联网浏览多个帖子,但没有真正解决我面临的问题。尝试执行以下操作时出现以下错误SELECT * from <external_table>。(这也是我在第 6 步中遇到的错误,因为我是 CTAS 命令来加载我的决赛桌。)

我不明白还缺少什么。我也授予了容器级别的访问权限。有人可以帮我解决这个问题吗?

0 投票
1 回答
241 浏览

scala - 从Scala中的安装路径逐行读取文本文件

我打算从挂载路径逐行读取 csv 文件,对每一行执行一些操作,然后将其写回新的 csv 文件。使用下面读取文件,但它说找不到文件。我能够读取数据框中的文件,但无法使用以下代码读取文件。

错误:

还想知道我们如何在每一行上执行一些操作(一行一行,因为我需要检查一些东西!)并将其写回一个新的 csv 文件

0 投票
1 回答
731 浏览

python-3.x - 如果 python 中不存在 Azure Data Lake Storage Gen2 创建目录

如何检查目录是否存在。如果不创建目录

将创建一个目录,但我想实现这样的目标:

0 投票
2 回答
1536 浏览

python-3.x - 通过 python 检查 azure data Lake Storage gen2 中是否存在文件

嗨,我想知道 ADLS Gen 2 中的文件存在

这给出了file_client,但是如何检查文件是否存在,因为我试图重命名它并给出错误(如果不存在):

所以我只想file_client.rename_file(target_name)在文件存在时才进行重命名。

0 投票
1 回答
907 浏览

azure - 触发 Azure 数据工厂管道 - Blob 上传 ADLS Gen2(以编程方式)

我们正在使用 Azure SDK for java 将文件上传到 Azure 数据湖存储。上传文件后,需要触发 Azure 数据工厂。BLOB CREATED 触发器被添加到管道中。主要问题是每次文件上传后都会触发两次。

要将文件上传到 ADLS gen2,Azure 提供了与传统 Blobstorage 不同的 SDK。

SDK 使用包 - azure-storage-file-datalake.

DataLakeFileSystemClient- 获取容器

DataLakeDirectoryClient.createFile- 创建一个文件。//此调用可能引发 blob created 事件

DataLakeFileClient.uploadFromFile- 上传文件 //此调用也可能引发 blob 创建事件

我认为 ADF 触发器没有升级为从 ADLSGen2 适当地捕获 Blob 创建的事件。

有什么选择可以实现这一目标吗?我的组织有限制不要使用 Azure 函数,否则可以根据存储队列消息或服务总线消息触发 Azure 函数,并且可以使用数据工厂 REST API 启动 ADF 管道。

0 投票
1 回答
14 浏览

azure-data-lake-gen2 - Appnexus 到 Azure 数据迁移错误(使用 sas)

我有一个每小时的数据迁移过程,它使用 sas 密钥将数据从 appnexus 复制到 Azure。但突然在 2020 年 6 月 27 日凌晨 3:20:11 它停止并开始给出错误“java.util.NoSuchElementException:枚举结果时发生错误,请检查原始异常以获取详细信息。”。有人可以帮助我了解实际出了什么问题。