问题标签 [data-quality]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cloud - ICP4D(IBM Cloud Pak for Data)也可以用作数据质量工具吗?
ICP4D(IBM Cloud Pak for Data)也可以用作 DQ(数据质量)工具吗?我知道它主要不适用于 DQ,但它是否有能力解决少数 DQ 维度/区域?
scala - 异常检测 Deequ 库中的直方图
我们可以在异常检测中使用直方图分析器吗?
假设,我想检查指定列中变量比率的变化。例如,以男性和女性为值的列的直方图分析类似于 (Male - 0.6) 和 (Female - 0.4)。现在,如果值从这些值更改为其他值,则应该是数据异常。我已经尝试过了,但无法弄清楚。
我们目前可以实现这样的目标吗?
dynamics-crm - 在 CRM 设计中,是否必须在请求更改地址时强制更新电话号码?
每当请求更改地址时,是否必须强制更新电话号码。
谢谢
validation - 为大数据定义数据质量规则
有什么方法可以定义可以应用于数据帧的数据质量规则。定义规则的模板应该很容易让任何外行定义,然后我们可以将这些规则转换为 pyspark 代码并在数据上运行它们。
我在想如下。
如果有任何工具或特定领域的语言来定义相同的,那将有所帮助。如果有任何模板来定义可以跨属性和跨多个表(连接,例如国家/地区查找)应用的规则也很有帮助。
data-processing - 从理论上讲,DATE 和 TIME 是两个不同的变量吗?
我很想知道,就整洁的数据原则而言,包含“日期和时间”的列(21 年 1 月 1 日 11:31)是否会被视为单个变量或两个单独的变量?
python - 寄予厚望:如果未提供 root_directory,则 base_directory 必须是绝对路径
这是关于 Python 中的 Great Expectations 模块,主要用于数据质量检查(我发现他们的文档不足)。所以我一直在尝试在我的笔记本上设置数据上下文(使用本地数据源) - 如中所述:
以下是我的代码:
这是我得到的错误:
base_directory must be an absolute path if root_directory is not provided
我究竟做错了什么?
specifications - 数据质量测试规范的标准化格式
我正在研究数据质量测试的自动化。我发现了一个很好的测试框架,看起来很棒。但是使用它需要对检查进行“手动”编码,并根据规范的变化使它们保持最新(需要编码器工作)。
如果有某种格式可以将数据质量要求直接嵌入规范中,我会发现它会更加有效和高效。然后一些相对简单的脚本会使用库将规范“翻译”为可执行代码。
我们的 db 规范(它是 DWH 中的 L2,因此它与输出 csv 的格式匹配)主要是 Excel 格式。
有没有可以使用的标准化格式?
非常感谢您的任何建议。
python - 如何在 PyDeequ 中使用 hasUniqueness 检查?
我将PyDeequ用于数据质量,并且我想检查一组列的唯一性。有一个检查方法hasUniqueness
,但我不知道如何使用它。
我正在努力:
但是我们应该在这里使用什么来代替断言函数????
呢?
有没有人试过检查hasUniqueness
列的组合?
r - 数据质量 - 检查字符列中的所有值是否都是 R 中的数字
我希望在众多系统生成的表上执行数据质量。其中一项检查是查看字符列中的所有值是否都只是数字。我希望知道此检查为真的数字列。以下表为例,我想确定两列(代码和年龄)是仅包含数值的字符列。
表结构
列名 | 数据类型 |
---|---|
姓名 | 特点 |
类型 | 特点 |
代码 | 特点 |
会员ID | 整数 |
采集日期 | 日期 |
年龄 | 特点 |
高度 | 双倍的 |
表值
列名 | 列值 |
---|---|
姓名 | 只有字母 |
类型 | 只有字母 |
代码 | 只有数字 |
会员ID | 只有数字 |
采集日期 | 只有日期 |
年龄 | 只有数字 |
高度 | 只有数字 |
我在思考执行此操作所需的逻辑时遇到问题。到目前为止我所做的是:
仅选择字符数据类型的列
验证列中的所有值都是数字(或 null,这很好)
我希望构建一个在所有列中执行此操作的函数,并将检查为真的数字存储到列中(即 dplyr::mutate),但我不确定如何构造它;它是交叉,应用还是其他东西。或者是否有任何现有的功能/包可以执行此任务?任何帮助表示赞赏。