“azure-data-lake-gen2”的相关标签问题

0 投票

2 回答

596 浏览

azure - azure datalake gen2 databricks ACL 权限

我想了解为什么我的 ACL 权限在 Databricks 中无法正常工作。

场景：我有 2 个用户。一个对 FileSystem 和具有完全权限的人。其他没有任何权限。

我尝试使用 2 种不同的方法在数据块中安装 Gen2 文件系统。

/li>

并使用直通 2。

都挂载文件系统。但是当我使用：

dbfs.fs.ls("/mnt/xyz")

它显示对 datalake 没有权限的用户的所有内容文件/文件夹。

如果有人能解释我出了什么问题，我会很高兴。

谢谢

0 投票

2 回答

2824 浏览

azure - ADLS Gen2 中不提供软删除的解决方法

截至目前，ADLS Gen2 尚不支持 blob 功能“软删除”（分层命名空间已打开）。软删除对于人为错误或程序删除造成的意外删除非常有用。考虑到 ADLS Gen2 尚不支持软删除，是否有任何简单的解决方法？我们希望真正使用 ADLS Gen2 的分层命名空间功能，但如果发生意外删除，我们不想丢失我们的数据——类似于软删除，我们希望在删除后保留数据几天（例如 15 天））。

azure azure-data-lake azure-data-lake-gen2

0 投票

2 回答

4425 浏览

python-3.x - 如何使用 python 从 Azure Data Lake Gen 2 读取文件

我有一个文件位于 Azure Data Lake gen 2 文件系统中。我想读取文件的内容并进行一些低级别的更改，即从记录中的几个字段中删除几个字符。更明确地说 - 有些字段也有最后一个字符作为反斜杠 ('\')。并且由于该值包含在文本限定符 ("") 中，因此字段值会转义 '"' 字符并继续包含下一个字段的值作为当前字段的值。

例如，文本文件包含以下 2 条记录（忽略标题）

当我在 pyspark 数据框中阅读上述内容时，它会读取如下内容：

因此，我的目标是使用 python 中的常用文件处理来读取上述文件，例如以下文件，并为那些具有该字符的记录删除“\”字符并将行写回新文件。

但由于该文件位于 ADLS gen 2 文件系统（类似 HDFS 的文件系统）中，因此通常的 python 文件处理在这里不起作用。ADLS gen 2 文件系统文件处理的出路是什么？

或者有没有办法使用火花数据框 API 来解决这个问题？

python-3.x azure hdfs databricks azure-data-lake-gen2

0 投票

1 回答

294 浏览

azure - Azure 数据湖 gen2 - 验证上传的文件（MD5？）

我需要验证上传到 ADLG2 的文件，但找不到好方法...

有一个 ContentMD5 属性，但我看不出为什么要更改或更新它

即使我尝试获取文件的 HEAD，该属性也是不存在的 HEAD 标头响应（即使在存储资源管理器中该属性存在）存储资源管理器中的属性列表

为什么要在 Azure 端自动生成它？或一些不同的方式来验证文件？（我不想上传文件然后下载并比较它们）

azure rest azure-data-lake azure-data-lake-gen2

0 投票

0 回答

2095 浏览

python - 使用 Python SDK 将 CSV 文件上传到 Azure Data Lake Store(ADLS) Gen 2

[更新 - 2020 年 5 月 15 日 - 我得到了这段代码，整个流程都使用镶木地板文件格式。但是，我仍然对使用 CSV 的方法感兴趣]

我正在尝试使用以下命令将 csv 文件从本地计算机上传到 ADLS Gen 2 存储。这工作正常，但 ADLS 中生成的 csv 文件是连续文本，没有用于分隔每一行的换行符。无法像使用 Polybase 一样将此 CSV 文件加载到 Azure Synapse。

输入 CSV -

"col1","col2","col3"

“新泽西州”、“1”、“2020 年 1 月 3 日”

“纽约”、“1”、“2020 年 1 月 4 日” ...

我得到的输出 CSV 是这样的 -

"col1","col2","col3""NJ","1","1/3/2020""NY","1","1/4/2020"...

如何确保我的最终 csv 在每一行之后都有换行符？每个 CSV 中只有 100,000 条记录。

我也尝试过这种方法 -

我指的是这里的 Microsoft 文档，它描述了文本文件的方法 - https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-directory-file-acl-python

python azure pyspark azure-data-lake azure-data-lake-gen2

0 投票

1 回答

1561 浏览

external-tables - Azure Synapse 分析：访问外部表时出错

无法执行查询。错误：文件“ https://track2gen2storage.blob.core.windows.net/\sourcedata\sample.csv ”无法打开，因为它不存在或被另一个进程使用。

我们执行了这些步骤：-

external-tables azure-data-lake-gen2 azure-synapse

0 投票

1 回答

277 浏览

azure-blob-storage - 从 ADLS Gen 2 blob 存储获取最新数据到安装在 Azure DataBricks 中的表

我在 Azure DataBricks 中使用挂载路径创建了一个非托管表，如下所示：

挂载路径的来源是存储在 ADLS Gen2 中的 parquet 文件。我查看是否在 ADLS Gen 2 blob 存储路径中更改了基础数据，它没有反映在 ADB 中创建的非托管表中。此 ADB 表仍然保存在创建表时 Blob 存储中可用的数据有没有办法将最新数据从 Blob 存储中获取到 ADB 中的表中？

azure-blob-storage azure-databricks azure-data-lake-gen2

0 投票

1 回答

160 浏览