有什么方法可以定义可以应用于数据帧的数据质量规则。定义规则的模板应该很容易让任何外行定义,然后我们可以将这些规则转换为 pyspark 代码并在数据上运行它们。
我在想如下。
ID ProjectID RuleID Attribute1 Value1 Condition1 Attribute2 Value2 Condition2 Type ModifyAttribute ModificationLogic CustomUDF
1 1 1 SerialNum 6 EQUAL MODIFY SerialNum SUBSTR(serialNum,1,6)
2 1 2 DriverName ['A','B','C'] VALUEMATCH Source ['D','E','F'] IN REJECT
如果有任何工具或特定领域的语言来定义相同的,那将有所帮助。如果有任何模板来定义可以跨属性和跨多个表(连接,例如国家/地区查找)应用的规则也很有帮助。