0

寻找层之间的数据验证技术。

这是数据流

Azure 上的源(RDBMS)> 平面文件(阶段)> AVRO/json(最终目标)。

问题是,每个阶段可能有单个表的多个平面文件(分区),并且目标上可能有更多潜在的分区。

计划是创建带有一堆列的 SQL 表,但不确定如何处理分区、多个作业负载。

这是基本表的想法..

数据验证(表):dt_validation JobId|tblname|RC_RDBMS|RC_FF|RC_AVRO|Job_run_date|Partition_1|Partition_2

RC= RowCount, FF=Flat file 注意:想法是每次我通过层时,我都会得到行数(RC)并插入/更新表。

上表设计是否适用于一天内的多个分区、多个负载/作业?

需要有关我的表在一天内考虑分区和多个负载的外观的建议。

4

0 回答 0