问题标签 [data-quality]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
70 浏览

cloud - ICP4D(IBM Cloud Pak for Data)也可以用作数据质量工具吗?

ICP4D(IBM Cloud Pak for Data)也可以用作 DQ(数据质量)工具吗?我知道它主要不适用于 DQ,但它是否有能力解决少数 DQ 维度/区域?

0 投票
1 回答
298 浏览

scala - 异常检测 Deequ 库中的直方图

我们可以在异常检测中使用直方图分析器吗?

假设,我想检查指定列中变量比率的变化。例如,以男性和女性为值的列的直方图分析类似于 (Male - 0.6) 和 (Female - 0.4)。现在,如果值从这些值更改为其他值,则应该是数据异常。我已经尝试过了,但无法弄清楚。

我们目前可以实现这样的目标吗?

0 投票
1 回答
44 浏览

dynamics-crm - 在 CRM 设计中,是否必须在请求更改地址时强制更新电话号码?

每当请求更改地址时,是否必须强制更新电话号码。

谢谢

0 投票
1 回答
104 浏览

validation - 为大数据定义数据质量规则

有什么方法可以定义可以应用于数据帧的数据质量规则。定义规则的模板应该很容易让任何外行定义,然后我们可以将这些规则转换为 pyspark 代码并在数据上运行它们。

我在想如下。

如果有任何工具或特定领域的语言来定义相同的,那将有所帮助。如果有任何模板来定义可以跨属性和跨多个表(连接,例如国家/地区查找)应用的规则也很有帮助。

0 投票
1 回答
23 浏览

data-processing - 从理论上讲,DATE 和 TIME 是两个不同的变量吗?

我很想知道,就整洁的数据原则而言,包含“日期和时间”的列(21 年 1 月 1 日 11:31)是否会被视为单个变量或两个单独的变量?

0 投票
1 回答
720 浏览

python - 寄予厚望:如果未提供 root_directory,则 base_directory 必须是绝对路径

这是关于 Python 中的 Great Expectations 模块,主要用于数据质量检查(我发现他们的文档不足)。所以我一直在尝试在我的笔记本上设置数据上下文(使用本地数据源) - 如中所述:

https://docs.greatexpectations.io/en/latest/guides/how_to_guides/configuring_data_contexts/how_to_instantiate_a_data_context_without_a_yml_file.html#how-to-guides-configuring-data-contexts-how-to-instantiate-a-data-context-without- a-yml 文件

以下是我的代码:

这是我得到的错误:

base_directory must be an absolute path if root_directory is not provided

我究竟做错了什么?

0 投票
0 回答
17 浏览

specifications - 数据质量测试规范的标准化格式

我正在研究数据质量测试的自动化。我发现了一个很好的测试框架,看起来很棒。但是使用它需要对检查进行“手动”编码,并根据规范的变化使它们保持最新(需要编码器工作)。

如果有某种格式可以将数据质量要求直接嵌入规范中,我会发现它会更加有效和高效。然后一些相对简单的脚本会使用库将规范“翻译”为可执行代码。

我们的 db 规范(它是 DWH 中的 L2,因此它与输出 csv 的格式匹配)主要是 Excel 格式。

有没有可以使用的标准化格式?

非常感谢您的任何建议。

0 投票
1 回答
532 浏览

python - 如何在 PyDeequ 中使用 hasUniqueness 检查?

我将PyDeequ用于数据质量,并且我想检查一组列的唯一性。有一个检查方法hasUniqueness,但我不知道如何使用它。

我正在努力:

但是我们应该在这里使用什么来代替断言函数????呢?

有没有人试过检查hasUniqueness列的组合?

0 投票
1 回答
328 浏览

r - 数据质量 - 检查字符列中的所有值是否都是 R 中的数字

我希望在众多系统生成的表上执行数据质量。其中一项检查是查看字符列中的所有值是否都只是数字。我希望知道此检查为真的数字列。以下表为例,我想确定两列(代码和年龄)是仅包含数值的字符列。

表结构

列名 数据类型
姓名 特点
类型 特点
代码 特点
会员ID 整数
采集日期 日期
年龄 特点
高度 双倍的

表值

列名 列值
姓名 只有字母
类型 只有字母
代码 只有数字
会员ID 只有数字
采集日期 只有日期
年龄 只有数字
高度 只有数字

我在思考执行此操作所需的逻辑时遇到问题。到目前为止我所做的是:

仅选择字符数据类型的列

验证列中的所有值都是数字(或 null,这很好)

我希望构建一个在所有列中执行此操作的函数,并将检查为真的数字存储到列中(即 dplyr::mutate),但我不确定如何构造它;它是交叉,应用还是其他东西。或者是否有任何现有的功能/包可以执行此任务?任何帮助表示赞赏。

0 投票
1 回答
104 浏览

python - 数据质量 - 缺失值(熊猫)

我正在做一个数据质量项目。我正在尝试使用 pandas-profiling profileReport 生成数据质量报告,但是当我验证报告时,它说我没有缺失值,而我确实有空单元格。或者你有什么其他的建议 结果

这是我的 xls 文件的一部分,显示了缺少的单元格: xls 文件