寻找层之间的数据验证技术。
这是数据流
Azure 上的源(RDBMS)> 平面文件(阶段)> AVRO/json(最终目标)。
问题是,每个阶段可能有单个表的多个平面文件(分区),并且目标上可能有更多潜在的分区。
计划是创建带有一堆列的 SQL 表,但不确定如何处理分区、多个作业负载。
这是基本表的想法..
数据验证(表):dt_validation JobId|tblname|RC_RDBMS|RC_FF|RC_AVRO|Job_run_date|Partition_1|Partition_2
RC= RowCount, FF=Flat file 注意:想法是每次我通过层时,我都会得到行数(RC)并插入/更新表。
上表设计是否适用于一天内的多个分区、多个负载/作业?
需要有关我的表在一天内考虑分区和多个负载的外观的建议。