问题标签 [data-quality]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
47 浏览

python - 数据质量流程 - 定义规则

我正在从事一个新的数据质量监控项目。我从数据分析开始分析我的数据并对其进行全局视图。接下来,我想定义一些数据质量规则,但我对如何实现这些规则有点困惑。如果你们可以指导我一点,因为我对此完全陌生。

0 投票
0 回答
112 浏览

validation - Pentaho 数据验证器错误:找不到指定的字段名进行验证

我正在使用数据验证在 PDI 中进行转换,但是当我运行转换时出现此错误,谁能帮我修复它:编辑:我确实有那个字段,但它说找不到它。

0 投票
0 回答
31 浏览

database - 在 talend 中创建雪花模式

我正在通过教程发现Talend Data Quality Dashboards,我想创建一个如下所示的模式,但我找不到如何:

在此处输入图像描述

0 投票
0 回答
32 浏览

database - Talend Data Quality - 生成报告

我正在从事一个我不熟悉的数据质量项目。我正在使用Talend Data Quality我从定义规则开始,然后我应该从分析中生成报告,但我找不到报告部分,我在用户指南中进行了搜索;通常我应该右键单击分析并单击新报告,但没有报告文件夹或按钮,我尝试了不同的版本,我遇到了同样的问题。谁能帮我解决这个问题,或者如果你们知道我如何使用另一个报告工具生成报告并将其连接到我的规则。

0 投票
0 回答
29 浏览

data-warehouse - Informatica IDQ - 向下钻取结果表

我们需要在记分卡运行后立即在 Informatica IDQ 中自动导出明细结果。那么,有人可以让我知道配置文件仓库中保存了哪些表/视图钻取结果吗?

0 投票
1 回答
57 浏览

sql-server - Azure 数据质量分析真实世界示例

这篇关于 DQS 的文章中,我无法理解什么是“分析”和“知识库”。我能找到的只是理论解释和行话。有人可以提供一个简单的现实世界示例吗?令人困惑的是,即使在分析内部,也提到了数据清理和匹配!

问题不是针对任何特定工具,而是针对任何衡量数据质量的工具或平台。

我的目标是在我们的项目中实现它。提到的其他点,例如数据清理和匹配,是直截了当的,我们已经实现了。

在此处输入图像描述

0 投票
2 回答
43 浏览

python - Python:使用 for 循环更改原始数据

我有一些非常大的 txt 文件(> 2 gb),其中的数据质量不好。在某些列(应该是整数)中,对于低于 1000.00 的值,'.' 用作小数点(例如 473.71886),但对于高于 1000.00 的值,则格式类似于 7.541,72419。所以','用作小数点,'.' 为千位分隔符。

我已经通过以下命令使用 pd.read_csv 读取了文本文件

我试图构建要使用的正则表达式,但它不起作用 pattern = "[0-9]+[\.][0-9]+[,][0-9]+"

我正在考虑使用下面的代码来纠正上述问题,但它不起作用。(在下面的代码中我用来pattern2 = ","测试代码)

print(k)in 循环似乎工作正常,但是当我运行 df3 时,我得到以下输出

['\x00\x003\x004\x00\x006\x006\x005\x00,\x002\x001\x007\x006\x000\x00']

有人可以帮忙吗?

先感谢您!

0 投票
0 回答
21 浏览

json - 用于 json 文档的简单数据 porfiler

我有几个 json 文档,需要对它们进行基本的数据质量分析。没什么特别的,只是像各种字段、重复值(如字典)、完整性和缺失字段等。是否有一个简单的工具可以将 json 文件作为输入并提供一种分析?

0 投票
0 回答
54 浏览

azure-data-factory - 使用 ADF 实现 Delta 表约束并设置 Delta minWriterVersion

使用 ADF 实施 Delta 表约束并设置 Delta minWriterVersion

我们公司正在使用 Azure 数据工厂在 ADLS v2 中创建增量表。默认情况下,ADF 增量映射数据流连接器似乎使用 minWriterVersion 2 创建增量表。

两个问题:

  • 我们是否可以在 ADF 创建新表或更新现有表时以编程方式将 minWriterVersion 设置为版本 3 或更高版本,或者这是否由 MS ADF 团队控制?

  • 假设 Delta Table minWriterVersion 设置为 3 或更高, 当使用 ADF 在 ADLS 中创建或更新 delta 表时
    ,我们有哪些选项(如果有)来实现 Delta Table 约束,尤其是 Not NULL 约束?

0 投票
1 回答
27 浏览

tsql - 数据质量维度的动态 SQL 表验证

我有以下代码可以nulls使用动态 sql 在整个表中进行测试:

我现在想测试唯一值,但我很难在子查询中使用聚合函数。到目前为止,我有:

我想以某种方式将其整合select sum(cast(iif...select @custom_sql = ...上述内容中。有任何想法吗?