1

我正在寻找一种好的算法/方法来检查数据仓库中的数据质量。因此,我希望有一些算法“知道”值的可能结构,然后检查这些值是否是该结构的成员,然后确定它们是否正确/不正确。

我考虑过定义一个正则表达式并检查每个值是否合适。

这是一个好方法吗?有一些好的选择吗?(有研究论文吗?)

4

2 回答 2

3

我建议使用专用的数据质量工具,例如 DataCleaner ( http://datacleaner.eobjects.org ),我已经为此做了很多工作。

您需要一种工具,不仅可以检查约束等严格规则,而且还可以为您提供数据配置文件,让您可以轻松地自行探索和识别不一致之处。例如,尝试“模式查找器”,它会告诉你字符串值的模式——这通常会揭示异常值和错误值。您还可以使用该工具通过转换值、从中提取信息或使用第三方服务进行丰富来实际清理数据。祝您提高数据质量好运!

于 2011-12-18T10:02:05.263 回答
3

我看到一些作者建议添加一个称为数据质量维度的特殊维度来进一步描述每个事实表记录。

数据质量维度中的典型值可能是“正常值”、“超出范围的值”、“不太可能的值”、“已验证的值”、“未验证的值”和“不确定的值”。</p>

于 2011-11-29T12:24:30.320 回答