1

有什么方法可以定义可以应用于数据帧的数据质量规则。定义规则的模板应该很容易让任何外行定义,然后我们可以将这些规则转换为 pyspark 代码并在数据上运行它们。

我在想如下。

ID  ProjectID   RuleID  Attribute1  Value1          Condition1  Attribute2  Value2          Condition2  Type    ModifyAttribute ModificationLogic   CustomUDF
1   1           1       SerialNum   6               EQUAL                                               MODIFY  SerialNum   SUBSTR(serialNum,1,6)   
2   1           2       DriverName  ['A','B','C']   VALUEMATCH  Source      ['D','E','F']   IN          REJECT  

如果有任何工具或特定领域的语言来定义相同的,那将有所帮助。如果有任何模板来定义可以跨属性和跨多个表(连接,例如国家/地区查找)应用的规则也很有帮助。

4

1 回答 1

1

令人惊讶的是,还没有人回答这个问题。通常,对于这样的用例,我会使用ConfigParser。根据您的架构,您可以定义易于阅读和执行的部分和规则。但这是开发人员会发现比普通用户更容易使用的东西。

现在已经不碍事了,对于您的用例,由于 python 是一种具有很大灵活性的脚本语言,您可以简单地以您提供的格式创建一个 excel,这将决定您的数据操作流程。我希望这在某种程度上有所帮助。如果您需要更多信息,请告诉我。

于 2021-01-11T06:47:21.483 回答