2

关于在雪花中处理数据沿袭的任何想法/选项?我们遵循微服务架构,在该架构中,一旦触发某些事件,我们就会运行一组包含大量 SQL 查询的存储过程。

示例:当填充表 A 时,执行 SP_Populate_Table_B,结果是填充了表 B。当我们填充暂存区、DataVault 和我们的维度模型时,我们有大量的 SP。

我们正在寻找任何好的方法来处理围绕这种执行 ETL 的微服务方式的所有元数据。基本上是自动化的方法来跟踪表之间的依赖关系,可视化编排,有更好的方法来处理表更改时 SP 的更改等。

您能否为您为 Snowflake 尝试过的一些框架或工具提供建议,最好是开源的?DBT 能解决这个问题吗?

谢谢潘泰利斯

4

2 回答 2

0

dbt 是将仓库部署为代码的一个很好的解决方案,但对于将仓库用作数据库来编写中间表的服务并不是一个很好的解决方案。

如果您关心数据沿袭,并且愿意重新考虑 SP 方法,那么我会推荐 dbt 作为将您的仓库基础架构部署为代码的工具,并轻松了解数据的下游依赖关系。

如果您愿意将所有事情都视为 ELT 问题,并允许 dbt 成为将大量加载的数据/事件的子集转换为可供 BI 分析或摄取的东西的基础设施,那么 dbt 非常棒。

阅读本文以获取更多上下文: https ://discourse.getdbt.com/t/understanding-idempotent-data-transformations/518

于 2020-04-01T18:08:42.523 回答
0

我还不能 100% 确定它是否支持雪花,但我强烈建议您研究一下Packyderm。我相信它是为解决这类问题而设计的。

如果您真的需要 Snowflake 支持,可能值得一看,甚至可以做出贡献。

于 2020-05-28T22:03:03.410 回答