问题标签 [azure-data-lake-gen2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - StatusDescription=此请求无权使用此权限执行此操作
我正在使用 azure databricks 创建一个简单的批处理,以将数据从 databricks 文件系统复制到另一个位置。
作为单元格中的命令,我通过了这个:
源文件名是:fec78263-b86d-4531-ad9d-3139bf3aea31.txt
但是在运行 cmd 时,我收到此错误消息:
乍一看,访问托管在 azure 帐户存储中的文件系统似乎存在身份验证问题,但不知道如何添加适当的字符串。
如果问题有帮助,请投票。提前致谢。
azure - DataLake Power BI 设计模式
我们的客户有一个共同的问题,即许多分布式数据存储具有不同的技术堆栈。最后的游戏是将某些部分数据整合在一起,通过 Microsoft Power BI 生成详细的报告。
这种方法有标准模式吗?我最初的想法是
- 在可能的情况下,Azure 数据工厂将数据迁移到 Azure Data Lake。
- 如果无法做到这一点,请自动将数据提取和转储到 Azure Data Lake。
- 用户 Power BI Desktop 连接到 csv 数据集以生成模型和报告(同时执行相当大的转换)
- 发布到 PowerBI 服务以在用户之间共享
担心...
- 我们应该在数据工厂(或其他一些 ETL)中使用 DataFlows 进行转换还是继续使用 PowerBI 中的查询编辑器
- 在 PowerBI Desktop 中连接多个数据集并执行大量转换活动是否存在性能问题?
- 为了用新数据更新报告,是否只是覆盖数据湖中以前的 CSV 文件并刷新报告的情况?
azure - Azure Data Lake Storage (ADLS Gen2) 中的 java.lang.NoSuchMethodError: reactor.core.publisher.Flux.toIterable(I)Ljava/lang/Iterable"
我正在编写一个 java 程序来连接到 Azure Data Lake Storage (ADLS Gen2)。但是当我尝试迭代存储帐户的文件系统列表时,我得到“java.lang.NoSuchMethodError: reactor.core.publisher.Flux.toIterable(I)Ljava/lang/Iterable”错误。
堆栈跟踪:
代码示例:
下面是 pom.xml
尽管 reactor-core 依赖项带有上述依赖项。我仍然尝试明确添加它,但它没有解决问题。
任何帮助将不胜感激。提前致谢。
azure-databricks - 从 ADLS Gen2 错误读取文件 - 找不到配置属性 xxx.dfs.core.windows.net
我正在使用来自 Databricks 笔记本的 ADLS Gen2,它试图使用“abfss”路径处理文件。我能够很好地读取镶木地板文件,但是当我尝试加载 XML 文件时,我收到错误找不到配置 - 找不到配置属性 xxx.dfs.core.windows.net。
我没有尝试安装文件,但试图了解它是否是 XML 文件的已知限制,因为我能够很好地读取镶木地板文件。
这是我的 XML 库配置 com.databricks:spark-xml_2.11:0.9.0
我根据其他文章尝试了几件事,但仍然遇到相同的错误。
- 添加了一个新范围以查看它是否是 Databricks 工作区中的范围问题。
- 尝试添加配置 spark.conf.set("fs.azure.account.key.xxxxx.dfs.core.windows.net", "xxxx==")
pyspark - 将 rest api get 方法响应保存为 json 文档
我正在使用下面的代码从 rest api 读取并将响应写入 pyspark 中的 json 文档并将文件保存到 Azure Data Lake Gen2。当响应没有空白数据时,代码可以正常工作,但是当我尝试取回所有数据时,会遇到以下错误。
错误消息:ValueError:某些类型在推断后无法确定。
代码:
回复:
尝试修复如下架构。
不确定如何创建数据框并将数据写入 json 文档。
pyspark - Azure databricks 数据帧写入会导致作业中止错误
我正在尝试将数据写入 csv 文件并将文件存储在 Azure Data Lake Gen2 上并遇到作业中止错误消息。这个相同的代码以前可以正常工作。
错误信息:
代码:
azure-data-lake - 限制从 ADLS Gen2 到其他平台的数据移动
我们正在寻找一种限制 ADLS Gen2 之外的数据移动的功能。如果我们授予用户或 SPN 只读访问权限,他们可以根据需要将数据从 ADLS 复制到任何平台。如果触发了 ADLS 外部的任何此类数据移动,是否有办法限制 ADLS 外部的数据移动或生成警报?
azure-blob-storage - 我可以为 Azure Data Lake Storage Gen2 中的目录创建 Sas 密钥吗?
在 azure blob 存储中,我可以为特定文件或容器创建具有读取权限的 Sas 密钥,但不能对目录执行此操作。
Azure Data Lake Storage Gen2 中是否有办法创建允许访问目录及其中所有文件的 Sas 密钥?如果有办法,我该怎么做?
azure - AADToken:到 https://login.microsoftonline.com/ 的 HTTP 连接/oauth2/token 从 AzureAD 获取令牌失败
我想通过文件系统中的挂载点从 Azure Databricks Cluster - SCALA 版本访问 Azure Data Lake Storage Gen2。
我尝试了以下代码,其中将 azure 服务主体凭据指定为 azure 订阅的入口点(角色 --> Data Lake 容器上的存储 blob 数据所有者)。
但收到此错误消息:
似乎存在端点身份验证问题。
如果问题有帮助,请投票。提前致谢。
azure - CloudBlob 上的 OpenReadAsync 返回空流
我有一个 azure 函数(EventGrid 触发器),当在 blob 存储(Data Lake Storage Gen2)中创建新的 blob 时触发。在这个函数中,我需要读取 blob 并将其反序列化为一个对象(类型已知)。
这是我用来获取 CloudBlob 的方法:
使用此代码,我阅读了云 blob
在方法 HandleFile 我调用 DeserializeAsync 方法:
由于某种原因,流有时是空的(stream.Length 为 0)导致此异常。
有趣的是,如果我再次重试这个 blob 的过程,那么流会按预期填充。
我是否缺少任何等待条件,或者 Blob 尚未完全写入存储?