问题标签 [amazon-deequ]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
624 浏览

scala - 如何将 Deequ Contraint Suggestions 保存到文件中以供再次使用?

您好,我正在使用 Amazon Deequ 为我的数据的数据质量检查生成一组约束。我想将约束建议对象保存到 HDS,以便我可以加载它并在我想要运行数据质量检查的任何时候使用它来验证。如何保存此对象并在需要时重新加载。这是我用来生成的代码

我想保存约束或建议结果

0 投票
2 回答
623 浏览

scala - 添加基于合规性分析器的检查

这是我正在使用的示例数据框(df):

我想执行一项检查,告诉我擦洗后“填充”(不包含“XX”或“ZZ”)的项目比例是否至少为 80%。(此检查应该失败。)我可以添加一个合规性分析器VerificationRunBuilder来计算指标,如下所示:

此代码运行并使用约束成功检查数据hasSize,但我无法弄清楚如何根据我的自定义合规性分析器添加约束。这可能吗?

0 投票
1 回答
110 浏览

python - 请求有关大数据验证的建议

我是大数据验证和处理的新手。对datacompy知之甚少,我用它来比较两个数据集(熊猫)。但是我找不到任何可以进行数据验证的来源,即使用 python 对电子邮件、非电子邮件、null、货币和日期/时间格式进行列验证

例如,需要对以下样本数据进行验证:

我得到的数据集包含“地址”列下的电子邮件地址,需要验证“地址”列中是否存在电子邮件。'Emil' 列需要验证,反之亦然。

此外,我更喜欢在结果中返回无效行(类似于 datcompy compare.report,它输出整行不匹配的行)。

我已经用 scala 尝试了 Deequ,如果发现验证错误,验证成功状态。但是,很难找出包含无效数据的确切行。

感谢有人可以为此目的指导我参考,课程或任何其他工具,语言。首选 python 或 Deequ/scala 上的解决方案。

0 投票
1 回答
834 浏览

scala - Azure DataBricks - Deequ - 查找检查失败的行

我关注了https://aws.amazon.com/blogs/big-data/test-data-quality-at-scale-with-deequ/ 并开始运行检查和验证等。

但我无法找出我的数据究竟在哪些行上失败了。这是一个非常重要的部分,我需要检查失败的行。

我尝试了以下操作:https://github.com/awslabs/deequ/blob/master/src/test/scala/com/amazon/deequ/schema/RowLevelSchemaValidatorTest.scala 但是,我在运行此链接的代码时收到错误数据块:

而这样的例子不胜枚举。

请帮忙。

谢谢

0 投票
1 回答
171 浏览

amazon-deequ - 在 deequ 中添加新的建议规则

我想在建议 deequ 工作流程中添加几条新规则。例如,deequ 提供检查列是否包含 URL (containsURL)。我想制定相应的建议规则。

我将不胜感激如何做到这一点的建议。

谢谢,

德让

0 投票
1 回答
805 浏览

java - 加载失败:com/amazon/deequ/checks/Check

我正在构建一个 spark 应用程序来加载两个 json 文件,比较它们并打印差异。我也尝试使用 amazon library 验证这些文件aws deequ,但出现以下异常:

当我提交作业时:

我正在使用 Ubuntu 来托管 spark,在我添加 deequ 以运行一些验证之前,它可以正常工作。我想知道我是否在部署过程中遗漏了一些东西。这个错误似乎不是互联网上众所周知的错误。

代码 :

**马文:**

0 投票
1 回答
298 浏览

scala - 异常检测 Deequ 库中的直方图

我们可以在异常检测中使用直方图分析器吗?

假设,我想检查指定列中变量比率的变化。例如,以男性和女性为值的列的直方图分析类似于 (Male - 0.6) 和 (Female - 0.4)。现在,如果值从这些值更改为其他值,则应该是数据异常。我已经尝试过了,但无法弄清楚。

我们目前可以实现这样的目标吗?

0 投票
1 回答
317 浏览

scala - 使用反射访问 Amazon Deequ 中的方法

我计划创建一个用户配置文件,稍后我将对其进行解析,以便从 Amazon Deequ 运行一些检查。我希望能够从配置文件中传递字符串名称来获取方法;然而,在我尝试这样做的过程中,我不断遇到障碍。

我已经尝试了文档中的几个示例以及我在 SO 上找到的内容。我还检查了类myClass.getClass.getMethods.map(_.getName).foreach{println}中以及 Github 上的方法名称。

此外,我也尝试过使用.getClass.getMethod和调用该方法

0 投票
1 回答
1768 浏览

apache-spark - Pyspark 版本的 Amazon Deequ

我正在使用 AWS Glue 并为我的 ETL 使用 pyspark API。我相信如果我需要使用 Amazon Deequ,我需要切换到 Scala。但是我仍然希望继续使用 Pyspark API。有出路吗?如果是,我需要在 AWS Glue 中遵循哪些步骤?

谢谢

0 投票
2 回答
2228 浏览

python - 数据流的数据测试框架(deequ vs Great Expectations)

我想在我的管道中引入数据质量测试(空字段/最大值/最小值/正则表达式/等...),这基本上会在数据登录到数据库之前消耗 kafta 主题测试数据。

我很难在 Deequ 和 Great Expectations 框架之间做出选择。Deequ 缺乏明确的文档,但具有“异常检测”,可以将以前的扫描与当前扫描进行比较。远大的期望具有非常好的和清晰的文档,因此开销更少。我认为这些框架都不是专门为数据流设计的。

谁能提供一些建议/其他框架建议?