我们的一位客户需要使用 hiveQL 构建/开发数据质量规则。例如,替换 NULL 值、更改日期格式YYYY-MM-DD
、标准化美国和欧盟格式的金额列值等。
问题陈述:
我在一个配置单元表(dq_rules)中有一组数据质量规则,想要一个一个地执行每个规则并将错误(数据问题,如空列,不正确的日期格式列)存储在另一个配置单元表(dq_logging)中报告/记录目的。
请记住一件事给我建议解决方案,我想让这个解决方案通用且适用于任何配置单元表/列(这意味着它应该被参数化)。
限制:我不能使用现有的数据质量工具。我只需要使用蜂巢来完成它(限制由客户给出)。
表的架构:
- dq_rules => 验证规则 ID、规则类别、DQ 维度、规则描述添加日期、停用日期
- dq_logging => Error_ID,Source_Name,Erroneous_Source_Fields,Source_File_Record,验证规则 ID
如果有人有与编写 shell/python 脚本相关的解决方案,也适用于我。我只需要让它端到端的过程。