问题标签 [azure-data-lake-gen2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure-data-factory - Azure 数据工厂 - Azure 数据湖的增量加载
我想为没有审计字段的源系统设置增量加载模式,该字段说明上次修改记录的时间。示例:持续修改时间(日期时间)
但是这些表是用主键和唯一键定义的,当属性发生任何变化时,应用程序使用它们来更新记录。
现在的问题是我如何确定 Delta 的每一天并使用 Azure Data Factory / Databricks 将它们加载到 Azure Data Lake 中。
我是否应该从当天和当天 -1 暂存全套数据并使用散列值确定增量?
还是有更好的方法?
pyspark - 如何使用 pyspark 从 Databricks 内的 ADLS Gen2 Datalake 中的“文件共享”读取 csv 文件
我有带有“Blob 容器”和“文件共享”的 ADLS Gen2 Datalake。我已经在我的 Databricks 笔记本中安装了 Blob 容器,因此我可以阅读我的 Databricks 笔记本中的所有内容。
我在“文件共享”中也有一些文件,但我无法使用 pyspark 通过 Databricks 将这些文件读入数据框。
我已经为文件共享创建了一个访问签名,并且我还获得了共享中的一个文件的 url。该网址通过邮递员工作正常。我可以使用 url 下载该文件。
示例网址如下所示:
如何使用pyspark通过databricks将该文件共享中的相同csv读取到数据帧中?
我也试过
我收到以下错误:
请给我一些关于如何解决这个问题的指示。谢谢。
c# - 如何将 Azure Data Lake Gen2 用于 Azure Batch 服务?
为了处理大量数据,我们希望将 Azure Data Lake Gen2 存储与 Azure Batch 结合使用。这是我尝试过的:
我在 Data Lake 文件系统中创建了 Pool、Job 和 Uploaded File (参考取自Microsoft Docs)。 当批处理任务尝试从数据湖文件系统下载资源文件时失败。这是代码:
添加任务后,我收到ResourceContainerAccessDenied
错误 - 这意味着上传到存储的文件,BatchService 任务无权访问该文件。
当我尝试使用存储容器时,批处理服务按预期运行。对于 StorageContainers,身份验证是使用 SAS 令牌完成的。但在这种情况下,我无法弄清楚如何使用 SAS 令牌或如何验证 BatchService 的存储以访问节点中的资源文件。
Data Lake Gen2 文件系统的任何其他替代方案也可能会有所帮助。
r - 通过 R 将文件从 ADLS 下载到本地文件系统出现连接错误
我正在使用 AzureR 包从 RStudio 访问 Azure Data Lake Storage。我使用以下脚本设置连接:
连接运行良好,我得到以下结果:
然后我使用以下脚本将文件上传到 ADLS 文件系统并从其下载文件:
上传效果很好,而下载显示以下错误:
现在我有两台服务器可以使用,但目标是切换到新服务器并淘汰旧服务器。该脚本在旧服务器上运行良好,CSV 文件非常小,因此上传和下载在几秒钟内完成。但是,在新服务器上,上传工作正常,而下载失败。关于可能导致此问题的任何想法?我想知道两台服务器之间是否有任何不同的系统设置,但我对数据湖真的很陌生。任何帮助将不胜感激!
azure-data-factory-2 - 如何将整个文件内容作为文本加载到列 AzureSQLDW 表中?
我在天蓝色数据湖 2 中有一个文件,我想将它们加载为 AzureSQLDW 中的列值 nvarchar(max)。AzureSQLDW 中的表是堆的。我找不到任何方法吗?我所看到的只是将它们加载到多行而不是单列中的一行时以列分隔。我如何做到这一点?
azure - Azure SQL 数据仓库 Polybase 查询到 Azure Data Lake Gen 2 返回零行
为什么对 Azure Data Lake Gen 2 的 Azure SQL 数据仓库 Polybase 查询会为单个文件源返回多行,但为父文件夹源返回零行?
我建立:
- 万能钥匙(CREATE MASTER KEY;)
- 凭据 (CREATE DATABASE SCOPED CREDENTIAL) - 使用 ADLS Gen 2 帐户密钥
- 外部数据源(CREATE EXTERNAL DATA SOURCE)
- 文件格式(创建外部文件格式)
- 外部表(创建外部表)
当我的外部表指向特定文件时,一切正常,即
返回了很多行,因此我相信上面提到的所有项目都配置正确。
Azure Data Lake Gen 2 中的 Time 文件夹包含许多文件,而不仅仅是 time001.txt。当我将外部表更改为指向文件夹而不是单个文件时,查询返回零行,即
返回零行
我试过了:
- LOCATION = '/时间/',
- 位置 = '/时间',
- 位置='时间/',
- 位置='时间',
我测试了文件夹中的所有文件,并分别返回多行数据。
我从 Blob 存储而不是 ADLS Gen2 中查询了所有文件,并且“文件夹”查询按预期返回所有行。
如何使用 Azure SQL 数据仓库和 Polybase 从 Azure Data Lake Gen2 存储中“作为一个”查询文件夹中的所有文件?
azure - 如何限制服务原则访问 ADLS Gen2 中的特定文件夹?
我正在尝试使用服务原则配置与 ADLS Gen2 的 Power BI 连接。我想限制对特定文件夹(以及下面的子文件夹)的访问。
看起来需要将服务原则添加到容器级别的“数据读取器”或“数据贡献者”RBAC 角色。这会自动授予对容器根目录下整个文件夹的访问权限。
如何将服务原则访问权限限制为特定文件夹级别?
谢谢
azure - 安装 PowershellGet 模块返回错误
我正在尝试在此处遵循有关使用 Powershell 管理 Azure Data Lake Gen 2 的文档,但在尝试安装PowerShellGet
模块时收到警告和错误。请看下面的屏幕截图。
如果我忽略这一点并继续尝试运行下面的下一个命令,我可能会收到另一个错误,这可能是因为PowerShellGet
上面安装模块的问题。
我目前安装了 Powershell 5.1。
azure - 从 U-SQL 引用 ADL 存储 gen2 文件
我有一个 ADL 帐户设置了两个存储:常规 ADLS gen1 存储设置为默认值和启用了“分层命名空间”的 blob 存储,如果这很重要,则使用存储密钥连接到 ADLS(此时没有托管身份) . 第一个与问题无关,只是为了这个问题,第二个注册在 name 下testdlsg2
。我在 Azure 门户的数据资源管理器中都看到了。
现在,我在该 blob 存储中有一个名为的容器,logs
并且在该容器的根目录中有我要处理的日志文件。
如何从 U-SQL 引用特定存储和特定容器中的这些文件?
我已经阅读了 ADLS Gen2 URI文档并提出了以下 U-SQL:
不幸的是,当我将其提交给 ADL 时,作业失败并出现以下错误:
CsEnumerateDirectoryWithPaging 失败,错误为 0x83090A1A(提供的 Url 类型不支持该操作)。Cosmos 路径:abfss://logs@testdlsg2.dfs.core.windows.net/
当使用具有相对路径的本地存储时,查询在本地运行良好。