问题标签 [azure-data-lake-gen2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
596 浏览

azure - azure datalake gen2 databricks ACL 权限

我想了解为什么我的 ACL 权限在 Databricks 中无法正常工作。

场景:我有 2 个用户。一个对 FileSystem 和具有完全权限的人。其他没有任何权限。

我尝试使用 2 种不同的方法在数据块中安装 Gen2 文件系统。

  1. /li>

并使用直通 2。

都挂载文件系统。但是当我使用:

dbfs.fs.ls("/mnt/xyz")

它显示对 datalake 没有权限的用户的所有内容文件/文件夹。

如果有人能解释我出了什么问题,我会很高兴。

谢谢

0 投票
2 回答
2824 浏览

azure - ADLS Gen2 中不提供软删除的解决方法

截至目前,ADLS Gen2 尚不支持 blob 功能“软删除”(分层命名空间已打开)。软删除对于人为错误或程序删除造成的意外删除非常有用。考虑到 ADLS Gen2 尚不支持软删除,是否有任何简单的解决方法?我们希望真正使用 ADLS Gen2 的分层命名空间功能,但如果发生意外删除,我们不想丢失我们的数据——类似于软删除,我们希望在删除后保留数据几天(例如 15 天) )。

0 投票
2 回答
4425 浏览

python-3.x - 如何使用 python 从 Azure Data Lake Gen 2 读取文件

我有一个文件位于 Azure Data Lake gen 2 文件系统中。我想读取文件的内容并进行一些低级别的更改,即从记录中的几个字段中删除几个字符。更明确地说 - 有些字段也有最后一个字符作为反斜杠 ('\')。并且由于该值包含在文本限定符 ("") 中,因此字段值会转义 '"' 字符并继续包含下一个字段的值作为当前字段的值。

例如,文本文件包含以下 2 条记录(忽略标题)

当我在 pyspark 数据框中阅读上述内容时,它会读取如下内容:

因此,我的目标是使用 python 中的常用文件处理来读取上述文件,例如以下文件,并为那些具有该字符的记录删除“\”字符并将行写回新文件。

但由于该文件位于 ADLS gen 2 文件系统(类似 HDFS 的文件系统)中,因此通常的 python 文件处理在这里不起作用。ADLS gen 2 文件系统文件处理的出路是什么?

或者有没有办法使用火花数据框 API 来解决这个问题?

0 投票
1 回答
294 浏览

azure - Azure 数据湖 gen2 - 验证上传的文件(MD5?)

我需要验证上传到 ADLG2 的文件,但找不到好方法...

有一个 ContentMD5 属性,但我看不出为什么要更改或更新它

即使我尝试获取文件的 HEAD,该属性也是不存在的 HEAD 标头响应 (即使在存储资源管理器中该属性存在) 存储资源管理器中的 属性列表

为什么要在 Azure 端自动生成它?或一些不同的方式来验证文件?(我不想上传文件然后下载并比较它们)

0 投票
0 回答
2095 浏览

python - 使用 Python SDK 将 CSV 文件上传到 Azure Data Lake Store(ADLS) Gen 2

[更新 - 2020 年 5 月 15 日 - 我得到了这段代码,整个流程都使用镶木地板文件格式。但是,我仍然对使用 CSV 的方法感兴趣]

我正在尝试使用以下命令将 csv 文件从本地计算机上传到 ADLS Gen 2 存储。这工作正常,但 ADLS 中生成的 csv 文件是连续文本,没有用于分隔每一行的换行符。无法像使用 Polybase 一样将此 CSV 文件加载到 Azure Synapse。

输入 CSV -

"col1","col2","col3"

“新泽西州”、“1”、“2020 年 1 月 3 日”

“纽约”、“1”、“2020 年 1 月 4 日” ...

我得到的输出 CSV 是这样的 -

"col1","col2","col3""NJ","1","1/3/2020""NY","1","1/4/2020"...

如何确保我的最终 csv 在每一行之后都有换行符?每个 CSV 中只有 100,000 条记录。

我也尝试过这种方法 -

我指的是这里的 Microsoft 文档,它描述了文本文件的方法 - https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-directory-file-acl-python

0 投票
1 回答
1561 浏览

external-tables - Azure Synapse 分析:访问外部表时出错

无法执行查询。错误:文件“ https://track2gen2storage.blob.core.windows.net/\sourcedata\sample.csv ”无法打开,因为它不存在或被另一个进程使用。

我们执行了这些步骤:-

0 投票
1 回答
277 浏览

azure-blob-storage - 从 ADLS Gen 2 blob 存储获取最新数据到安装在 Azure DataBricks 中的表

我在 Azure DataBricks 中使用挂载路径创建了一个非托管表,如下所示:

挂载路径的来源是存储在 ADLS Gen2 中的 parquet 文件。我查看是否在 ADLS Gen 2 blob 存储路径中更改了基础数据,它没有反映在 ADB 中创建的非托管表中。此 ADB 表仍然保存在创建表时 Blob 存储中可用的数据有没有办法将最新数据从 Blob 存储中获取到 ADB 中的表中?

0 投票
1 回答
160 浏览

azure-storage - 使用系统分配的托管标识将 Azure 流分析输出到 Data Lake Storage Gen2

我有一个Use System-assigned Managed Identity启用的流分析作业,我想将其结果输出到 Data Lake Storage Gen2。

据我了解,我只需要进入存储帐户的 IAM 设置并将流分析身份添加为Stroage Blob Data Owner. 但是,我在下拉列表中没有看到 Stream Analytics Jobs 的类别,而且我似乎在其他任何一个中都找不到服务主体。

在此处输入图像描述

我在这里遗漏了什么还是这种情况还不支持?

0 投票
1 回答
114 浏览

azure-data-lake - U-SQL + Python PDF 文件 parsing.in Azure Data Lake Analytics

我需要使用数据湖分析从 pdf 文件中提取数据并将值存储到表中。谁能帮助我提供一些有关如何实现此场景的示例或程序。

0 投票
1 回答
484 浏览

powershell - Azure DataLake gen2 Powershell 限制

我遇到了 Azure Datalake gen2 cmdlet 的限制:

https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-directory-file-acl-powershell

我正在使用这个 cmdlet:

从根目录获取所有文件和文件夹 ACL,但它有 5000 个对象限制,当我将它运行到具有超过 5000 个对象的文件夹时,它会显示此消息:

在此处输入图像描述

基本上,有了这个令牌,我可以从上次提取的内容继续(手动做很疯狂,因为也许我们在 datalake 上有数百万个文件)。

有可能避免它或以某种方式循环吗?

这是我正在使用的脚本(它工作正常,我不会从根目录报告所有文件 ma only 文件夹):

我如何循环该 cmdlet 以获得最多 5000 个对象?

非常感谢