2

有人可以帮我定义一个数据质量框架来分析某种数据吗?只是对它应该做什么的高级描述?只是你的想法。

4

2 回答 2

3

我考虑的数据质量的六项衡量标准是——准确性、完整性、完整性、精确性、有效性和及时性。我最近在这里完成了一篇包含一些高级测试方法的文章https://www.eageranalyst.com/blog/2019/2/27/data-quality-beyond-accuracy-and-completeness

准确性

查找要验证的外部可信数据源,如果不可用,请查找可以比较的代理。例如,您可能无法将单个交易与另一个来源进行比较,但也许您可以将它们与总计或日终值进行比较。

完整性

如果您有唯一的 ID 或引用键,请检查该键是否有多个记录以识别重复值。

如果您有外部事实来源,请将您的 ID/参考密钥与该来源进行核对,以识别缺失值或额外值。

如果您有校验和或控制总数,请确认您的数据集有那么多记录或计算到相同的校验和。

对于列完整性,确定哪些列不应缺少值,并分析这些列中缺少数据的任何记录。

如果您没有参考编号,请考虑其他可以用作代理的东西,以指示您的数据是多报还是少报。例如,每天的交易量,一个月或每个用户的交易总值。

如果您没有参考编号,请考虑可以使用哪些属性组合来识别数据中的重复项。例如,与姓名或出生日期配对的电子邮件地址、实际地址或电话号码。

正直

尝试为所提供的任何数据获取数据字典,以便清楚地解释每列应包含的内容。跨来源比较这些定义。

如果您有两个来源,请比较来源之间的属性以识别潜在的遗漏或不准确之处,并定义您认为是该数据的权威来源。

精确

检查您拥有的值 - 它们是否围绕可能表明它们被四舍五入到更细粒度的特定值聚集?

清楚说明您对记录值具有特定精度水平的原因。您的计算需要什么级别的精度?

有效性

如果您期望分类值,请检查您的数据是否属于这些类别。

如果您需要某些字段存在,请检查它们是否已填充。

对于自由文本字段,分析字段长度以查找已记录虚拟数据的实例。

时效性

在关键信息字段中查找到期日期或最后更新日期。联系信息之类的东西将不可避免地随着时间而改变。

检查报告上次刷新或准备的时间。

于 2019-03-01T14:32:52.320 回答
0

答案取决于您感兴趣的上下文(例如,支持特定领域或使用特定技术)……希望这些高级注释有一些用处。

因此,鉴于对数据做出的决策假设了该数据的质量水平——例如,使用聚合“管理信息”做出战略决策,或用于自动化处理——那么数据质量框架可能会考虑根据措施的数量,以便了解对数据质量的置信水平。

实际上,每个数据属性都可以评估为可衡量的事物:

  1. 如果是强制性的,是否已填充;
  2. 如果它由特定的数据类型(例如日期、数字)表示,它是否与该定义匹配;
  3. 属性是否符合业务规则
    • 简单的规则,例如最大值/最小值;
    • 更复杂的规则,例如对价值日常变化的限制;
    • 跨一组值的聚合规则;
  4. 跨属性规则,其中值依赖于其他属性的值;
  5. 如果存储在多个地方,是否一致;
  6. 它是正确的值吗?

项目 1-5可以自动化(例如,如果您使用数据库,则使用 SQL,或者定制 DQ 包)。最后一项可能依赖于抽样(因为您可能通过了所有规则但只是有错误的值)。

一旦您使用框架的技术元素评估了您的数据,那么很可能还有另一个“治理”角度,例如数据质量论坛,以评估不合规元素的影响,优先考虑它们,跟踪补救,发布详细信息, ETC..

于 2014-10-08T08:02:16.750 回答