问题标签 [azure-data-lake-gen2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - azure datalake gen2 databricks ACL 权限
我想了解为什么我的 ACL 权限在 Databricks 中无法正常工作。
场景:我有 2 个用户。一个对 FileSystem 和具有完全权限的人。其他没有任何权限。
我尝试使用 2 种不同的方法在数据块中安装 Gen2 文件系统。
- /li>
并使用直通 2。
都挂载文件系统。但是当我使用:
dbfs.fs.ls("/mnt/xyz")
它显示对 datalake 没有权限的用户的所有内容文件/文件夹。
如果有人能解释我出了什么问题,我会很高兴。
谢谢
azure - ADLS Gen2 中不提供软删除的解决方法
截至目前,ADLS Gen2 尚不支持 blob 功能“软删除”(分层命名空间已打开)。软删除对于人为错误或程序删除造成的意外删除非常有用。考虑到 ADLS Gen2 尚不支持软删除,是否有任何简单的解决方法?我们希望真正使用 ADLS Gen2 的分层命名空间功能,但如果发生意外删除,我们不想丢失我们的数据——类似于软删除,我们希望在删除后保留数据几天(例如 15 天) )。
python-3.x - 如何使用 python 从 Azure Data Lake Gen 2 读取文件
我有一个文件位于 Azure Data Lake gen 2 文件系统中。我想读取文件的内容并进行一些低级别的更改,即从记录中的几个字段中删除几个字符。更明确地说 - 有些字段也有最后一个字符作为反斜杠 ('\')。并且由于该值包含在文本限定符 ("") 中,因此字段值会转义 '"' 字符并继续包含下一个字段的值作为当前字段的值。
例如,文本文件包含以下 2 条记录(忽略标题)
当我在 pyspark 数据框中阅读上述内容时,它会读取如下内容:
因此,我的目标是使用 python 中的常用文件处理来读取上述文件,例如以下文件,并为那些具有该字符的记录删除“\”字符并将行写回新文件。
但由于该文件位于 ADLS gen 2 文件系统(类似 HDFS 的文件系统)中,因此通常的 python 文件处理在这里不起作用。ADLS gen 2 文件系统文件处理的出路是什么?
或者有没有办法使用火花数据框 API 来解决这个问题?
python - 使用 Python SDK 将 CSV 文件上传到 Azure Data Lake Store(ADLS) Gen 2
[更新 - 2020 年 5 月 15 日 - 我得到了这段代码,整个流程都使用镶木地板文件格式。但是,我仍然对使用 CSV 的方法感兴趣]
我正在尝试使用以下命令将 csv 文件从本地计算机上传到 ADLS Gen 2 存储。这工作正常,但 ADLS 中生成的 csv 文件是连续文本,没有用于分隔每一行的换行符。无法像使用 Polybase 一样将此 CSV 文件加载到 Azure Synapse。
输入 CSV -
"col1","col2","col3"
“新泽西州”、“1”、“2020 年 1 月 3 日”
“纽约”、“1”、“2020 年 1 月 4 日” ...
我得到的输出 CSV 是这样的 -
"col1","col2","col3""NJ","1","1/3/2020""NY","1","1/4/2020"...
如何确保我的最终 csv 在每一行之后都有换行符?每个 CSV 中只有 100,000 条记录。
我也尝试过这种方法 -
我指的是这里的 Microsoft 文档,它描述了文本文件的方法 - https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-directory-file-acl-python
external-tables - Azure Synapse 分析:访问外部表时出错
无法执行查询。错误:文件“ https://track2gen2storage.blob.core.windows.net/\sourcedata\sample.csv ”无法打开,因为它不存在或被另一个进程使用。
我们执行了这些步骤:-
azure-blob-storage - 从 ADLS Gen 2 blob 存储获取最新数据到安装在 Azure DataBricks 中的表
我在 Azure DataBricks 中使用挂载路径创建了一个非托管表,如下所示:
挂载路径的来源是存储在 ADLS Gen2 中的 parquet 文件。我查看是否在 ADLS Gen 2 blob 存储路径中更改了基础数据,它没有反映在 ADB 中创建的非托管表中。此 ADB 表仍然保存在创建表时 Blob 存储中可用的数据有没有办法将最新数据从 Blob 存储中获取到 ADB 中的表中?
azure-data-lake - U-SQL + Python PDF 文件 parsing.in Azure Data Lake Analytics
我需要使用数据湖分析从 pdf 文件中提取数据并将值存储到表中。谁能帮助我提供一些有关如何实现此场景的示例或程序。
powershell - Azure DataLake gen2 Powershell 限制
我遇到了 Azure Datalake gen2 cmdlet 的限制:
https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-directory-file-acl-powershell
我正在使用这个 cmdlet:
从根目录获取所有文件和文件夹 ACL,但它有 5000 个对象限制,当我将它运行到具有超过 5000 个对象的文件夹时,它会显示此消息:
基本上,有了这个令牌,我可以从上次提取的内容继续(手动做很疯狂,因为也许我们在 datalake 上有数百万个文件)。
有可能避免它或以某种方式循环吗?
这是我正在使用的脚本(它工作正常,我不会从根目录报告所有文件 ma only 文件夹):
我如何循环该 cmdlet 以获得最多 5000 个对象?
非常感谢