问题标签 [azure-data-lake-gen2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
974 浏览

azure-data-factory - Azure 数据工厂 - Azure 数据湖的增量加载

我想为没有审计字段的源系统设置增量加载模式,该字段说明上次修改记录的时间。示例:持续修改时间(日期时间)

但是这些表是用主键和唯一键定义的,当属性发生任何变化时,应用程序使用它们来更新记录。

现在的问题是我如何确定 Delta 的每一天并使用 Azure Data Factory / Databricks 将它们加载到 Azure Data Lake 中。

我是否应该从当天和当天 -1 暂存全套数据并使用散列值确定增量?

还是有更好的方法?

0 投票
1 回答
999 浏览

pyspark - 如何使用 pyspark 从 Databricks 内的 ADLS Gen2 Datalake 中的“文件共享”读取 csv 文件

我有带有“Blob 容器”和“文件共享”的 ADLS Gen2 Datalake。我已经在我的 Databricks 笔记本中安装了 Blob 容器,因此我可以阅读我的 Databricks 笔记本中的所有内容。

我在“文件共享”中也有一些文件,但我无法使用 pyspark 通过 Databricks 将这些文件读入数据框。

我已经为文件共享创建了一个访问签名,并且我还获得了共享中的一个文件的 url。该网址通过邮递员工作正常。我可以使用 url 下载该文件。

示例网址如下所示:

如何使用pyspark通过databricks将该文件共享中的相同csv读取到数据帧中?

我也试过

我收到以下错误:

请给我一些关于如何解决这个问题的指示。谢谢。

0 投票
0 回答
408 浏览

c# - 如何将 Azure Data Lake Gen2 用于 Azure Batch 服务?

为了处理大量数据,我们希望将 Azure Data Lake Gen2 存储与 Azure Batch 结合使用。这是我尝试过的:

我在 Data Lake 文件系统中创建了 Pool、Job 和 Uploaded File (参考取自Microsoft Docs)。 当批处理任务尝试从数据湖文件系统下载资源文件时失败。这是代码:

添加任务后,我收到ResourceContainerAccessDenied错误 - 这意味着上传到存储的文件,BatchService 任务无权访问该文件。 ResourceContainerAccessDenied

当我尝试使用存储容器时,批处理服务按预期运行。对于 StorageContainers,身份验证是使用 SAS 令牌完成的。但在这种情况下,我无法弄清楚如何使用 SAS 令牌或如何验证 BatchService 的存储以访问节点中的资源文件。

Data Lake Gen2 文件系统的任何其他替代方案也可能会有所帮助。

0 投票
1 回答
175 浏览

r - 通过 R 将文件从 ADLS 下载到本地文件系统出现连接错误

我正在使用 AzureR 包从 RStudio 访问 Azure Data Lake Storage。我使用以下脚本设置连接:

连接运行良好,我得到以下结果:

然后我使用以下脚本将文件上传到 ADLS 文件系统并从其下载文件:

上传效果很好,而下载显示以下错误:

现在我有两台服务器可以使用,但目标是切换到新服务器并淘汰旧服务器。该脚本在旧服务器上运行良好,CSV 文件非常小,因此上传和下载在几秒钟内完成。但是,在新服务器上,上传工作正常,而下载失败。关于可能导致此问题的任何想法?我想知道两台服务器之间是否有任何不同的系统设置,但我对数据湖真的很陌生。任何帮助将不胜感激!

0 投票
2 回答
131 浏览

azure-data-factory-2 - 如何将整个文件内容作为文本加载到列 AzureSQLDW 表中?

我在天蓝色数据湖 2 中有一个文件,我想将它们加载为 AzureSQLDW 中的列值 nvarchar(max)。AzureSQLDW 中的表是堆的。我找不到任何方法吗?我所看到的只是将它们加载到多行而不是单列中的一行时以列分隔。我如何做到这一点?

0 投票
2 回答
544 浏览

apache-spark - 如何将 Spark Structured Streaming 连接到 Azure Data Lake Storage Gen2 或 Blob Storage 中的 blob/文件创建事件

我是 Spark Structured Streaming 及其概念的新手。正在阅读 Azure HDInsight 集群的文档,其中提到结构化流应用程序在 HDInsight 集群上运行并连接到来自 .. Azure 存储或 Azure Data Lake Storage 的流数据。我正在研究如何开始使用流媒体监听来自存储或 ADLS 的新文件创建事件。spark文档确实提供了一个示例,但我正在寻找如何将流与 blob/文件创建事件联系起来,以便我可以将文件内容存储在我的 spark 作业的队列中。如果有人能帮助我解决这个问题,那就太好了。

0 投票
1 回答
343 浏览

azure - Azure SQL 数据仓库 Polybase 查询到 Azure Data Lake Gen 2 返回零行

为什么对 Azure Data Lake Gen 2 的 Azure SQL 数据仓库 Polybase 查询会为单个文件源返回多行,但为父文件夹源返回零行?

我建立:

  • 万能钥匙(CREATE MASTER KEY;)
  • 凭据 (CREATE DATABASE SCOPED CREDENTIAL) - 使用 ADLS Gen 2 帐户密钥
  • 外部数据源(CREATE EXTERNAL DATA SOURCE)
  • 文件格式(创建外部文件格式)
  • 外部表(创建外部表)

当我的外部表指向特定文件时,一切正常,即

返回了很多行,因此我相信上面提到的所有项目都配置正确。

Azure Data Lake Gen 2 中的 Time 文件夹包含许多文件,而不仅仅是 time001.txt。当我将外部表更改为指向文件夹而不是单个文件时,查询返回零行,即

返回零行

我试过了:

  • LOCATION = '/时间/',
  • 位置 = '/时间',
  • 位置='时间/',
  • 位置='时间',

但总是零行。我还按照https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-load-from-azure-data-lake-store上的说明进行操作

我测试了文件夹中的所有文件,并分别返回多行数据。

我从 Blob 存储而不是 ADLS Gen2 中查询了所有文件,并且“文件夹”查询按预期返回所有行。

如何使用 Azure SQL 数据仓库和 Polybase 从 Azure Data Lake Gen2 存储中“作为一个”查询文件夹中的所有文件?

0 投票
1 回答
503 浏览

azure - 如何限制服务原则访问 ADLS Gen2 中的特定文件夹?

我正在尝试使用服务原则配置与 ADLS Gen2 的 Power BI 连接。我想限制对特定文件夹(以及下面的子文件夹)的访问。

看起来需要将服务原则添加到容器级别的“数据读取器”或“数据贡献者”RBAC 角色。这会自动授予对容器根目录下整个文件夹的访问权限。

如何将服务原则访问权限限制为特定文件夹级别?

谢谢

0 投票
1 回答
287 浏览

azure - 安装 PowershellGet 模块返回错误

我正在尝试在此处遵循有关使用 Powershell 管理 Azure Data Lake Gen 2 的文档,但在尝试安装PowerShellGet模块时收到警告和错误。请看下面的屏幕截图。

在此处输入图像描述

如果我忽略这一点并继续尝试运行下面的下一个命令,我可能会收到另一个错误,这可能是因为PowerShellGet上面安装模块的问题。

我目前安装了 Powershell 5.1。

0 投票
1 回答
323 浏览

azure - 从 U-SQL 引用 ADL 存储 gen2 文件

我有一个 ADL 帐户设置了两个存储:常规 ADLS gen1 存储设置为默认值和启用了“分层命名空间”的 blob 存储,如果这很重要,则使用存储密钥连接到 ADLS(此时没有托管身份) . 第一个与问题无关,只是为了这个问题,第二个注册在 name 下testdlsg2。我在 Azure 门户的数据资源管理器中都看到了。

现在,我在该 blob 存储中有一个名为的容器,logs并且在该容器的根目录中有我要处理的日志文件。

如何从 U-SQL 引用特定存储和特定容器中的这些文件?

我已经阅读了 ADLS Gen2 URI文档并提出了以下 U-SQL:

不幸的是,当我将其提交给 ADL 时,作业失败并出现以下错误:

CsEnumerateDirectoryWithPaging 失败,错误为 0x83090A1A(提供的 Url 类型不支持该操作)。Cosmos 路径:abfss://logs@testdlsg2.dfs.core.windows.net/

当使用具有相对路径的本地存储时,查询在本地运行良好。