问题标签 [data-quality]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
429 浏览

informatica - 如何在 IDQ 中读取 xml 文件

我需要在 IDQ 中读取 XML 文件。我是 idq 的新手,不知道如何读取 xml 文件,因为没有像 informatica power center 这样的直接转换。谁能简要解释一下如何实现它。

提前致谢

0 投票
2 回答
234 浏览

informatica - 从阿拉伯语字段中删除多余的空格

如何删除阿拉伯语单词之间的尾随、前导和多个空格。阿拉伯语字段中的空格与我们在英语中的空格不同。在阿拉伯语中,空格将是一些与我们在英语中使用的空格字符不同的加长字符。请建议我一种方法来验证阿拉伯语字段并从 Informatica Developer 角度的字段中删除多余的空格。

谢谢谢赫

0 投票
1 回答
1449 浏览

scala - How to view specific changes in data at particular version in Delta Lake

Right now I have one test data which have 1 partition and inside that partition it has 2 parquet files

If I read data as:

Then I get latest data with 10,000 rows and if I read:

Then I get 612 rows, now my question is: How can I view only those new rows which were added in version 1 which is 10,000 - 612 = 9388 rows only

In short at each version I just want to view which data changed. Overall in delta log I am able to see json files and inside there json file I can see that it create separate parquet file at each version but how can I view it in code ?

I am using Spark with Scala

0 投票
1 回答
509 浏览

sql - 在 Athena AWS 上,表上的最后更新?

我尝试监控 AWS Athena 上的数据质量。我想知道如何找到数据何时加载到表中?

该表没有分区,我无法在此表上进行分区。

谢谢你的帮助!

0 投票
1 回答
710 浏览

python - 数据集的广义数据质量检查

我每天都会提取一些不同的数据集,执行一些简单的数据质量检查,然后如果数据集未通过检查,就会发送电子邮件。

我的检查就像检查数据集中的重复项一样简单,以及检查数据集中的行数和列数是否没有改变——见下文。

由于这些数据集每天都会更新并且可能会改变行数,有没有更好的方法来检查而不是硬编码特定的数字?

例如,一个数据集可能只有 400 行,而另一个可能有 200 万行。我可以说检查昨天的行数的“一个标准偏差”吗?但在那种情况下,我需要开始在一个单独的表中收集前几天的计数,这可能会变得很难看。

现在,对于每天更改的表格,我正在进行以下基本检查:

但显然这是不可持续的。

任何建议都非常感谢。

0 投票
2 回答
124 浏览

python - 如何识别单个列中的不同数据类型?

假设我们有一列具有以下值:

苹果、芒果、橙子、123、987、番石榴,01/01/2020

python 自动将此列识别为“对象”数据类型。我的任务是计算单列中数据类型的数量。对于人眼而言,很明显,上述列值中有 3 种数据类型:字符串、整数、日期。但是,我无法提出可以进行这种隔离的代码。期待指导!谢谢!

0 投票
3 回答
42 浏览

sas - 检测数据中的单位差异 (SAS)

我有两组财务数据,由于单位错误,它们往往包含差异,例如,一个数据集中的 10000 美元可能是另一个数据集中的 1000 美元。

我正在尝试编写检查此类差异的代码,但我能想到的唯一方法是将两个变量分开,看看差异是否在 0.001、0.01、0.1、10、100 等的表中,但它会很难抓住所有的差异。

有没有更聪明的方法来做到这一点?

0 投票
1 回答
21 浏览

sql - SQL - 查找具有给定特征的所有列中的所有值示例

我有一个数据集(8.5 行),其中所有列中的所有值都必须用引号(“”)括起来。我发现有一个问题 - 一些记录在某些列中保存了最后一个引号符号缺失的值。现在我需要尝试对问题进行概述 - 哪些列有此错误的示例(这是由于解决方案中的上游截断)。

从下面插入的示例虚拟数据中:

我该如何编写一个查询,由于这些列的第 2 行和第 3 行中缺少结束引号而输出“姓氏”和“年龄”列?要清楚 - 我如何识别具有零星截断值的列?

缺少引号的示例数据

谢谢,

knn

0 投票
1 回答
111 浏览

postgresql - 在 DAG 中,如何在表中找到列 Primary Key 并测试是否有 Null 值?

我在 DAG 中编写 DataQualityOperator。它应该检查 Redshift 表中是否有数据。为此,我想检查主列是否包含空值。使用sql,我找到了列主键的名称。如何检查它是否包含空值?(这意味着该表在我的情况下不好)。

如何做到这一点?感谢您的帮助。

0 投票
1 回答
72 浏览

python - 使用 Python/pandas 在数据集中查找聚类或连贯值

我对 Python 很陌生,正在尝试进行事件分析。我有两个数据集:一个包含事件,一个包含 stockdata。现在我需要构建等权重的投资组合并每个月“刷新”投资组合的构建。因此我需要一致的数据(我猜)。我的意思是,对于每个日期,我都需要此分析中所有股票的股票价格。不,我想以这种方式过滤数据,它向我展示了最大的“集群”,其中我拥有一段时间内所有股票的数据。作为替代显示所有股票和有数据的时间段。希望大家能理解我的解释。

在这种情况下,它应该给我从 2.5.2019 到 5.02.2019 的 a,b 或从 1.05.2019 到 4.5.2019 的 a,d 或类似的东西。

大熊猫中有这个论坛吗?

提前谢谢