我正在寻找用于存储我的 DWH 的表、数据源、etl 进程等文档的工具。我在 youtube 上看过一些演示文稿,但我发现,大多数公司都在使用自定义、自己的系统或类似 wiki 之类的纯文本描述。我认为,对于分析师、经理和其他用户来说,找出他们需要什么以及如何使用数据来计算适合他们的统计数据并不是那么有用。你能建议我用什么来处理这种情况吗?我必须读什么?
问问题
96 次
1 回答
0
在我看来,虽然 Airflow 是在对Apache-Atlas的一些支持下烘焙的
目前最好的数据湖元数据管理工具之一是Lyft 的 Amundsen
他们也发布
lyft/amundsendatabuilder
了,其中的介绍说Amundsen Databuilder 是一个数据摄取库,其灵感来自 Apache Gobblin。它可以在编排框架(例如 Apache Airflow)中用于从 Amundsen 构建数据。您可以将该库与即席 python 脚本(示例)或在 Apache Airflow DAG(示例)中使用。
于 2020-08-08T10:33:51.633 回答