3

我有一个 Python ETL 流程,可将数据从 MySQL 数据库移动到 Vertica 数据仓库。

ETL 代码打开从 MySQL 导出的文件,使用 Pythons Pandas 库对数据进行聚合和反规范化,然后写入新文件,这些文件稍后会加载到 Vertica 数据仓库中。代码很简单,工作正常。

我碰巧遇到了一个关于构建大型企业 ETL 网络的演讲,演讲者强调了将元数据包含到流程中的重要性,能够拥有关于数据集的元数据和模式信息。但没有给出具体细节。

这让我觉得我的 ETL 过程,没有任何这样的元数据概念,太业余了,我想合并这个模式元数据概念。一般我该怎么做?

演示文稿:https ://www.youtube.com/watch?v=1SQWzG3FIu4#t=2418 @40:20

4

0 回答 0