问题标签 [azure-data-lake-gen2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
60 浏览

java - java.io.IOException:流已关闭!ADLS Gen 2 中的 HDInsight 错误

我最初在这个链接的微软问答系统上发布了这个。但它似乎没有得到承认或解决,并认为这里可能有更好的反馈。

我目前正在将Hail用于 pyspark 库,以使用 HDInsight 4.0、Spark 2.4 集群对 ADLS Gen 2 中的基因组数据执行不同的操作。

我一直在与开发团队联系,讨论我在运行命令将表写入 ADLS 时遇到的这个错误。该团队已经查看了源代码,并确认他们有一种安全的方法来避免流的双重关闭,方法是在关闭之前检查它是否已经关闭,并暗示这可能是AbfsOutputStream.java内部的问题在 Hadoop 库中,或者这个错误掩盖了一个更深层次的问题。

任何帮助将不胜感激。根据两端的代码,这似乎不应该发生。

以下是我遇到的错误:

0 投票
1 回答
316 浏览

azure - ADLS Gen2 中针对即将到来的用户的文件夹级别访问控制

我有一个 Gen2 存储帐户并创建了一个容器。

文件夹结构看起来像这样

我只想给read only access用户normal-dataNOT sensitive-data

这可以通过在文件夹级别设置 ACL并授予对安全服务原则的访问权限来实现。

但是这种方法的局限性是用户只能访问在设置 ACL 后加载到目录中的文件,因此无法访问目录中已经存在的文件。

因为这个限制,不能给新用户完全读取权限(除非新用户使用相同的服务原则,这在我的用例中不是理想的场景)

请建议 ADLS Gen2 中的只读访问方法,其中

  1. 如果文件夹下已经存在文件并且新用户已加入,他应该能够读取文件夹下的所有文件
  2. 新用户应该只能访问normal-data文件夹而不是sensitive-data

PS:有一个用于递归分配 ACL 的脚本。但是由于我每天都会在normal-data文件夹下获得近百万条记录,因此使用递归 ACL 脚本对我来说是不可行的

0 投票
0 回答
378 浏览

python - 计算 Azure 数据湖 gen2 容器大小和读/写操作

我们的企业有一个不同部门使用的共享数据湖。我们要计算每个部门使用的容器级别的大小和读/写操作。根据我的研究,我相信容器的大小可以通过递归扫描文件夹/文件并总结大小来计算,但是在容器级别执行的读/写操作怎么样?还请建议任何其他方法来计算容器的大小

0 投票
1 回答
690 浏览

azure - 由于缺少 x-ms-blob-type,在 ADLS Gen2 中创建路径失败?

我使用 Azure Data Lake Storage Gen2 创建了一个 Azure 存储帐户。我想使用REST API上传文件。虽然使用共享密钥授权工作正常,但我在使用帐户 SAS时遇到问题。

对于路径创建,我使用Path - Create操作。

请求返回400 An HTTP header that's mandatory for this request is not specified.以下错误消息。

事实证明,在 Blob 存储中创建 Blob需要缺少的标头。由于 ADLS Gen2 支持这两种 API 并且都提供类似的操作,因此它将请求委托给错误的 API。

有没有办法在 ADLS Gen2 API 上使用 PUT 操作和 SAS 创建路径?

0 投票
1 回答
578 浏览

azure - 将存储帐户 datalake 2 连接到日志分析工作区

我有一个存储帐户datalake Gen2。我需要将我的存储帐户日志连接到 Log Analytics 工作区。

但是没有诊断设置菜单,所以我不知道该怎么做。

我认为这得到了 datalake Gen1 的支持,但是 datalake gen 2 有解决方法吗?

谢谢你

0 投票
1 回答
291 浏览

python - COPY INTO 从 Azure Dala Lake gen2 到 Azure Synapse 不执行任何操作

我正在尝试使用本地 ssms 从 azure data Lake gen2 复制到 azure synapse 仓库中的表。该COPY INTO语句既不会引发任何错误,也不会转储数据。我正在将 pandas df 从 centos 服务器复制到使用sep=',', encoding='utf-8'. 这是我正在使用的 COPY 语句。

0 投票
1 回答
364 浏览

java - Flink StreamingFileSink 的问题& Azure Datalake Gen 2

我在尝试使用 Flink 的 StreamingFileSink 将文件下沉到 Azure Datalake Gen 2 时遇到问题,我正在使用带有 Hadoop Bulk 格式的 core-site.xml 我正在尝试使用 abfss:// 格式复制到我的数据湖(也尝试使用 abfs://)

我阅读了官方文档并深入了解了图书馆,问题就在这里: https ://github.com/apache/flink/blob/master/flink-filesystems/flink-hadoop-fs/src/main/java/org/ apache/flink/runtime/fs/hdfs/HadoopRecoverableWriter.java#L60

这是我的 core-site.xml

任何人都通过了这个问题,或者是扩展 abfss/abfs 的问题。

0 投票
1 回答
1058 浏览

azure - 如何检查创建的存储帐户 V2 在 Azure 中是否具有数据湖 gen2 属性?

我对 Azure 非常陌生,想知道如何检查资源组中可用的现有存储帐户 V2 是否具有 Data Lake Gen2 类型。

我知道在创建时使用选项 Hierarchical namespace enabled == Data Lake Gen2 创建数据湖 gen 2 的过程。

但是我如何在创建后检查:

  1. 门户中的任何位置。
  2. Azure CLI - 要检查的任何 CLI 命令

提前致谢。

0 投票
1 回答
516 浏览

azure - 将 Parquet 文件从 Azure 数据湖存储帐户复制到 Synapse 数据仓库表失败

我使用 COPY INTO 语句将 ADLS Gen2 中的 csv 文件成功复制到 Synapse 表,并将共享访问签名作为凭据。但是,当我尝试将同一存储帐户(不同容器)中的 snappy.parquet 文件复制到同一数据仓库中的表中时,出现错误:“访问 HDFS 时发生错误:调用 HdfsBridge_Connect 时引发 Java 异常。Java 异常消息:找不到配置属性 mystorage.dfs.core.windows.net。”。我的代码是:

你知道如何解决这个问题吗?

谢谢

0 投票
0 回答
94 浏览

azure - DataLake gen2 中的新子网替换现有子网

我想使用此模板为 DataLake Gen2 添加虚拟网络和子网

我通过这个 powershell 脚本部署我的模板:

如您所见,一切都是参数化的。如果我第二次运行我的模板,旧子网将替换为新子网。你知道是什么原因造成的问题吗?