问题标签 [azure-data-catalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 访问 MS Azure 数据目录
我正在尝试从我的组织内访问 Azure 数据目录主页: https ://usw-su1.azuredatacatalog.com/#/home
当我单击上面的链接时,我会进入配置页面: https ://usw-su1.azuredatacatalog.com/provision
我不确定究竟是什么原因造成的,而且我是 Azure 的新手。是否由于某些配置设置?
azure-data-catalog - 我们可以重命名标签吗?
我们在 Azure 数据目录 (ADC) 中创建了许多用户标记。创建后,它们可以重命名还是可以更改拼写?
当我右键单击标签时,我只会看到浏览器提供的选项菜单,而不是 ADC 功能。我检查了设置和词汇表,但也看不到任何重命名选项。
azure - Azure 数据目录 Gen2 是免费的吗?
现在我使用 Azure 数据目录 Gen1
我看到 Azure 数据目录 Gen2 处于预览状态...
如果我创建一个 gen2,费用是免费的吗?
谢谢
azure - Azure 数据目录问题
我有几个与 Azure 数据目录相关的问题。
- 是否可以在不重新注册源的情况下进行元数据刷新?
- 是否可以使用数据目录中的 API 功能对数据源的行级和列级安全性进行建模?
azure - 支持多租户和数据隔离的数据目录工具
我正在寻找像 Azure Data Catalog 这样的数据目录工具,它将支持 Azure Data Lake Gen2 环境中的多租户作为数据源。借助此功能,多个用户(不同的租户)应该能够使用任何元数据工具搜索他们的特定数据(数据湖文件夹)。Azure 数据目录是否支持这种多租户、数据隔离?您能否推荐一些可以有效处理此类多租户和数据隔离的其他工具?
azure - Azure 数据目录与 Azure SQL Server 元数据接口 - 发布数据源时不获取 Azure SQL Server 元数据
我在几个视图和表的 MS_description 字段中设置了一些扩展属性。我现在已尝试发布我的数据源两次,但我在 ADC 中的该表或视图的描述字段中看不到任何描述
如何将 ADC 与我的 Azure SQL Server 扩展属性同步?
azure - 适用于数据湖的 Azure 数据治理解决方案方法
我正在评估如何使用 Azure 数据目录为数据湖批量转换管道实施数据治理解决方案。以下是我的处理方法。请问有什么见解吗?
- 数据工厂无法捕获从源到数据湖的沿袭。
- 我知道数据目录不能不维护数据湖上数据管理的业务规则。
- 首先,数据馈送是从给定业务词汇表等下的 Azure 数据目录手动载入的。或者当原始数据馈送被摄取到 Data Lake Storage 中时,将在给定业务词汇表下自动创建资产(如果它不存在)。
- 原始数据在湖上的光转换过程中被清理、分类和标记。因此,需要在 Data Catalog 上创建相关标签。(这是调用 Azure 数据目录 REST API 的自定义编码)
- 然后是ETL处理。要在 Data Catalog 中使用标记创建的新数据资产。这些工具是基于 Spark 的。(这是调用 Azure 数据目录 REST API 的自定义编码)最后,数据目录将显示在特定业务词汇表下的 Data Lake 批量转换数据管道中创建的所有数据资产,并带有正确的标签。
- 我正在跳过操作元数据和完整沿袭,因为 Azure 产品中没有这样的解决方案。这需要再次定制解决方案。
我正在寻找最佳实践。欣赏你的想法。
非常感谢
岑吉兹
azure-data-catalog - 能否使用 Azure Data Catalog 的 Rest API 上传要分析的数据?
当我查看官方文档时,我了解到我需要准备有关数据源的元数据,然后我可以使用其余 API 将此信息上传到数据目录。但是,当我使用 Web 界面时,我可以上传要由 Azure 数据目录本身分析的文档。是否可以以相同的方式使用 REST API?
azure-data-catalog - 当我通过 REST API 注册资产时,Azure 数据目录资产不可编辑
我正在使用 Azure 数据目录的 REST API 来注册新资产。我的用户需要能够添加/更改标签和描述。但是,当我通过 REST API 注册新资产时,添加标签按钮和描述文本字段会消失。
我怀疑我需要在 json 中传递一个参数以使字段可编辑。在官方文档中我找不到任何相关内容。
我拥有所有用户的所有管理员权限,所以我认为这不是访问权限问题。
如何使资产可编辑?
azure - 适用于 Databricks、Synapse 和 ADLS gen2 的数据治理解决方案
我是数据治理的新手,如果问题缺少一些信息,请原谅我。
客观的
我们正在 Azure 平台上为中型电信公司从头开始构建数据湖和企业数据仓库。我们将 ADLS gen2、Databricks 和 Synapse 用于 ETL 处理、数据科学、ML 和 QA 活动。
我们已经有大约 100 个输入表和 25 TB/年。未来,我们期待更多。
企业对与云无关的解决方案有强烈的需求。他们仍然可以使用 Databricks,因为它在 AWS 和 Azure 上可用。
问题
什么是我们的堆栈和要求的最佳数据治理解决方案?
我的解决方法
我还没有使用任何数据治理解决方案。我喜欢AWS Data Lake解决方案,因为它提供了开箱即用的基本功能。AFAIK,Azure 数据目录已过时,因为它不支持 ADLS gen2。
经过非常快速的谷歌搜索后,我发现了三个选项:
- Databricks Privacera
- Databricks Immuta
- 阿帕奇游侠和阿帕奇阿特拉斯。
目前我什至不确定第三个选项是否完全支持我们的 Azure 堆栈。此外,它将有更大的开发(基础设施定义)工作。那么我有什么理由应该研究 Ranger/Atlas 的方向吗?
选择 Privacera 而不是 Immuta 的原因是什么,反之亦然?
还有其他我应该评估的选择吗?
已经做了什么
从数据治理的角度来看,我们只做了以下事情:
- 在 ADLS 中定义数据区域
- 对敏感数据应用加密/混淆(由于 GDPR 要求)。
- 在 Synapse 和 Power BI 层实施行级安全性 (RLS)
- 用于记录持久化内容和时间的自定义审计框架
要做的事情
- 数据沿袭和单一事实来源。即使在开始的 4 个月内,理解数据集之间的依赖关系也成为一个痛点。血统信息存储在 Confluence 内部,很难在多个地方维护和持续更新。即使现在它在某些地方已经过时了。
- 安全。未来业务用户可能会在 Databricks Notebooks 中进行一些数据探索。我们需要用于 Databricks 的 RLS。
- 数据生命周期管理。
- 也许其他与数据治理相关的东西,例如数据质量等。