问题标签 [azure-data-lake-gen2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1106 浏览

scala - StatusDescription=此请求无权使用此权限执行此操作

我正在使用 azure databricks 创建一个简单的批处理,以将数据从 databricks 文件系统复制到另一个位置。

作为单元格中的命令,我通过了这个:

源文件名是:fec78263-b86d-4531-ad9d-3139bf3aea31.txt

但是在运行 cmd 时,我收到此错误消息:

乍一看,访问托管在 azure 帐户存储中的文件系统似乎存在身份验证问题,但不知道如何添加适当的字符串。


如果问题有帮助,请投票。提前致谢。

0 投票
1 回答
31 浏览

azure - DataLake Power BI 设计模式

我们的客户有一个共同的问题,即许多分布式数据存储具有不同的技术堆栈。最后的游戏是将某些部分数据整合在一起,通过 Microsoft Power BI 生成详细的报告。

这种方法有标准模式吗?我最初的想法是

  1. 在可能的情况下,Azure 数据工厂将数据迁移到 Azure Data Lake。
  2. 如果无法做到这一点,请自动将数据提取和转储到 Azure Data Lake。
  3. 用户 Power BI Desktop 连接到 csv 数据集以生成模型和报告(同时执行相当大的转换)
  4. 发布到 PowerBI 服务以在用户之间共享

担心...

  1. 我们应该在数据工厂(或其他一些 ETL)中使用 DataFlows 进行转换还是继续使用 PowerBI 中的查询编辑器
  2. 在 PowerBI Desktop 中连接多个数据集并执行大量转换活动是否存在性能问题?
  3. 为了用新数据更新报告,是否只是覆盖数据湖中以前的 CSV 文件并刷新报告的情况?
0 投票
1 回答
1579 浏览

azure - Azure Data Lake Storage (ADLS Gen2) 中的 java.lang.NoSuchMethodError: reactor.core.publisher.Flux.toIterable(I)Ljava/lang/Iterable"

我正在编写一个 java 程序来连接到 Azure Data Lake Storage (ADLS Gen2)。但是当我尝试迭代存储帐户的文件系统列表时,我得到“java.lang.NoSuchMethodError: reactor.core.publisher.Flux.toIterable(I)Ljava/lang/Iterable”错误。

堆栈跟踪:

代码示例:

下面是 pom.xml

尽管 reactor-core 依赖项带有上述依赖项。我仍然尝试明确添加它,但它没有解决问题。

任何帮助将不胜感激。提前致谢。

0 投票
1 回答
1962 浏览

azure-databricks - 从 ADLS Gen2 错误读取文件 - 找不到配置属性 xxx.dfs.core.windows.net

我正在使用来自 Databricks 笔记本的 ADLS Gen2,它试图使用“abfss”路径处理文件。我能够很好地读取镶木地板文件,但是当我尝试加载 XML 文件时,我收到错误找不到配置 - 找不到配置属性 xxx.dfs.core.windows.net。

我没有尝试安装文件,但试图了解它是否是 XML 文件的已知限制,因为我能够很好地读取镶木地板文件。

这是我的 XML 库配置 com.databricks:spark-xml_2.11:0.9.0

我根据其他文章尝试了几件事,但仍然遇到相同的错误。

  • 添加了一个新范围以查看它是否是 Databricks 工作区中的范围问题。
  • 尝试添加配置 spark.conf.set("fs.azure.account.key.xxxxx.dfs.core.windows.net", "xxxx==")
0 投票
1 回答
440 浏览

pyspark - 将 rest api get 方法响应保存为 json 文档

我正在使用下面的代码从 rest api 读取并将响应写入 pyspark 中的 json 文档并将文件保存到 Azure Data Lake Gen2。当响应没有空白数据时,代码可以正常工作,但是当我尝试取回所有数据时,会遇到以下错误。

错误消息:ValueError:某些类型在推断后无法确定

代码:

回复:

尝试修复如下架构。

不确定如何创建数据框并将数据写入 json 文档。

0 投票
1 回答
1586 浏览

pyspark - Azure databricks 数据帧写入会导致作业中止错误

我正在尝试将数据写入 csv 文件并将文件存储在 Azure Data Lake Gen2 上并遇到作业中止错误消息。这个相同的代码以前可以正常工作。

错误信息:

代码:

0 投票
1 回答
33 浏览

azure-data-lake - 限制从 ADLS Gen2 到其他平台的数据移动

我们正在寻找一种限制 ADLS Gen2 之外的数据移动的功能。如果我们授予用户或 SPN 只读访问权限,他们可以根据需要将数据从 ADLS 复制到任何平台。如果触发了 ADLS 外部的任何此类数据移动,是否有办法限制 ADLS 外部的数据移动或生成警报?

0 投票
1 回答
227 浏览

azure-blob-storage - 我可以为 Azure Data Lake Storage Gen2 中的目录创建 Sas 密钥吗?

在 azure blob 存储中,我可以为特定文件或容器创建具有读取权限的 Sas 密钥,但不能对目录执行此操作。

Azure Data Lake Storage Gen2 中是否有办法创建允许访问目录及其中所有文件的 Sas 密钥?如果有办法,我该怎么做?

0 投票
2 回答
1071 浏览

azure - AADToken:到 https://login.microsoftonline.com/ 的 HTTP 连接/oauth2/token 从 AzureAD 获取令牌失败

我想通过文件系统中的挂载点从 Azure Databricks Cluster - SCALA 版本访问 Azure Data Lake Storage Gen2。

我尝试了以下代码,其中将 azure 服务主体凭据指定为 azure 订阅的入口点(角色 --> Data Lake 容器上的存储 blob 数据所有者)。

但收到此错误消息:

似乎存在端点身份验证问题。


如果问题有帮助,请投票。提前致谢。

0 投票
3 回答
338 浏览

azure - CloudBlob 上的 OpenReadAsync 返回空流

我有一个 azure 函数(EventGrid 触发器),当在 blob 存储(Data Lake Storage Gen2)中创建新的 blob 时触发。在这个函数中,我需要读取 blob 并将其反序列化为一个对象(类型已知)。

这是我用来获取 CloudBlob 的方法:

使用此代码,我阅读了云 blob

在方法 HandleFile 我调用 DeserializeAsync 方法:

由于某种原因,流有时是空的(stream.Length 为 0)导致此异常。

有趣的是,如果我再次重试这个 blob 的过程,那么流会按预期填充。

我是否缺少任何等待条件,或者 Blob 尚未完全写入存储?