问题标签 [azure-data-catalog]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
70 浏览

azure - 访问 MS Azure 数据目录

我正在尝试从我的组织内访问 Azure 数据目录主页: https ://usw-su1.azuredatacatalog.com/#/home

当我单击上面的链接时,我会进入配置页面: https ://usw-su1.azuredatacatalog.com/provision

我不确定究竟是什么原因造成的,而且我是 Azure 的新手。是否由于某些配置设置?

0 投票
1 回答
98 浏览

azure-data-catalog - 我们可以重命名标签吗?

我们在 Azure 数据目录 (ADC) 中创建了许多用户标记。创建后,它们可以重命名还是可以更改拼写?

当我右键单击标签时,我只会看到浏览器提供的选项菜单,而不是 ADC 功能。我检查了设置词汇表,但也看不到任何重命名选项。

0 投票
1 回答
359 浏览

azure - Azure 数据目录 Gen2 是免费的吗?

现在我使用 Azure 数据目录 Gen1

我看到 Azure 数据目录 Gen2 处于预览状态...

如果我创建一个 gen2,费用是免费的吗?

谢谢

0 投票
1 回答
89 浏览

azure - Azure 数据目录问题

我有几个与 Azure 数据目录相关的问题。

  1. 是否可以在不重新注册源的情况下进行元数据刷新?
  2. 是否可以使用数据目录中的 API 功能对数据源的行级和列级安全性进行建模?
0 投票
1 回答
153 浏览

azure - 支持多租户和数据隔离的数据目录工具

我正在寻找像 Azure Data Catalog 这样的数据目录工具,它将支持 Azure Data Lake Gen2 环境中的多租户作为数据源。借助此功能,多个用户(不同的租户)应该能够使用任何元数据工具搜索他们的特定数据(数据湖文件夹)。Azure 数据目录是否支持这种多租户、数据隔离?您能否推荐一些可以有效处理此类多租户和数据隔离的其他工具?

0 投票
1 回答
73 浏览

azure - Azure 数据目录与 Azure SQL Server 元数据接口 - 发布数据源时不获取 Azure SQL Server 元数据

我在几个视图和表的 MS_description 字段中设置了一些扩展属性。我现在已尝试发布我的数据源两次,但我在 ADC 中的该表或视图的描述字段中看不到任何描述

如何将 ADC 与我的 Azure SQL Server 扩展属性同步?

0 投票
0 回答
148 浏览

azure - 适用于数据湖的 Azure 数据治理解决方案方法

我正在评估如何使用 Azure 数据目录为数据湖批量转换管道实施数据治理解决方案。以下是我的处理方法。请问有什么见解吗?

  1. 数据工厂无法捕获从源到数据湖的沿袭。
  2. 我知道数据目录不能不维护数据湖上数据管理的业务规则。
  3. 首先,数据馈送是从给定业务词汇表等下的 Azure 数据目录手动载入的。或者当原始数据馈送被摄取到 Data Lake Storage 中时,将在给定业务词汇表下自动创建资产(如果它不存在)。
  4. 原始数据在湖上的光转换过程中被清理、分类和标记。因此,需要在 Data Catalog 上创建相关标签。(这是调用 Azure 数据目录 REST API 的自定义编码)
  5. 然后是ETL处理。要在 Data Catalog 中使用标记创建的新数据资产。这些工具是基于 Spark 的。(这是调用 Azure 数据目录 REST API 的自定义编码)最后,数据目录将显示在特定业务词汇表下的 Data Lake 批量转换数据管道中创建的所有数据资产,并带有正确的标签。
  6. 我正在跳过操作元数据和完整沿袭,因为 Azure 产品中没有这样的解决方案。这需要再次定制解决方案。

我正在寻找最佳实践。欣赏你的想法。

非常感谢

岑吉兹

0 投票
1 回答
48 浏览

azure-data-catalog - 能否使用 Azure Data Catalog 的 Rest API 上传要分析的数据?

当我查看官方文档时,我了解到我需要准备有关数据源的元数据,然后我可以使用其余 API 将此信息上传到数据目录。但是,当我使用 Web 界面时,我可以上传要由 Azure 数据目录本身分析的文档。是否可以以相同的方式使用 REST API?

0 投票
1 回答
81 浏览

azure-data-catalog - 当我通过 REST API 注册资产时,Azure 数据目录资产不可编辑

我正在使用 Azure 数据目录的 REST API 来注册新资产。我的用户需要能够添加/更改标签和描述。但是,当我通过 REST API 注册新资产时,添加标签按钮和描述文本字段会消失。

我怀疑我需要在 json 中传递一个参数以使字段可编辑。在官方文档中我找不到任何相关内容。

我拥有所有用户的所有管理员权限,所以我认为这不是访问权限问题。

如何使资产可编辑?

0 投票
3 回答
1938 浏览

azure - 适用于 Databricks、Synapse 和 ADLS gen2 的数据治理解决方案

我是数据治理的新手,如果问题缺少一些信息,请原谅我。

客观的

我们正在 Azure 平台上为中型电信公司从头开始构建数据湖和企业数据仓库。我们将 ADLS gen2、Databricks 和 Synapse 用于 ETL 处理、数据科学、ML 和 QA 活动。

我们已经有大约 100 个输入表和 25 TB/年。未来,我们期待更多。

企业对与云无关的解决方案有强烈的需求。他们仍然可以使用 Databricks,因为它在 AWS 和 Azure 上可用。

问题

什么是我们的堆栈和要求的最佳数据治理解决方案?

我的解决方法

我还没有使用任何数据治理解决方案。我喜欢AWS Data Lake解决方案,因为它提供了开箱即用的基本功能。AFAIK,Azure 数据目录已过时,因为它不支持 ADLS gen2

经过非常快速的谷歌搜索后,我发现了三个选项:

  1. Databricks Privacera
  2. Databricks Immuta
  3. 阿帕奇游侠和阿帕奇阿特拉斯。

目前我什至不确定第三个选项是否完全支持我们的 Azure 堆栈。此外,它将有更大的开发(基础设施定义)工作。那么我有什么理由应该研究 Ranger/Atlas 的方向吗?

选择 Privacera 而不是 Immuta 的原因是什么,反之亦然?

还有其他我应该评估的选择吗?

已经做了什么

从数据治理的角度来看,我们只做了以下事情:

  1. 在 ADLS 中定义数据区域
  2. 对敏感数据应用加密/混淆(由于 GDPR 要求)。
  3. 在 Synapse 和 Power BI 层实施行级安全性 (RLS)
  4. 用于记录持久化内容和时间的自定义审计框架

要做的事情

  1. 数据沿袭和单一事实来源。即使在开始的 4 个月内,理解数据集之间的依赖关系也成为一个痛点。血统信息存储在 Confluence 内部,很难在多个地方维护和持续更新。即使现在它在某些地方已经过时了。
  2. 安全。未来业务用户可能会在 Databricks Notebooks 中进行一些数据探索。我们需要用于 Databricks 的 RLS。
  3. 数据生命周期管理。
  4. 也许其他与数据治理相关的东西,例如数据质量等。